SYNTH: pré-entraîner des petits modèles de raisonnement à l'état de l'art sur des données synthétiques ouvertes

  • 29 mai 2026
    De 12h à 13h

  • En ligne

Les données web utilisées pour entraîner les modèles de langue sont majoritairement mal documentées, pauvres en raisonnement et ayant un statut légal opaque. À partir de Common Corpus — le plus grand jeu de données ouvert pour le pré-entraînement (2,24 mille milliards de tokens) — Pleias a conçu SYNTH, un pipeline de données synthétiques qui amplifie 50 000 articles de Wikipédia en plus de 75 milliards de tokens couvrant mémorisation, RAG, arithmétique, édition et écriture créative.

représentation d'une base de données