SYNTH: pré-entraîner des petits modèles de raisonnement à l'état de l'art sur des données synthétiques ouvertes
-
29 mai 2026
De 12h à 13h - En ligne
Les données web utilisées pour entraîner les modèles de langue sont majoritairement mal documentées, pauvres en raisonnement et ayant un statut légal opaque. À partir de Common Corpus — le plus grand jeu de données ouvert pour le pré-entraînement (2,24 mille milliards de tokens) — Pleias a conçu SYNTH, un pipeline de données synthétiques qui amplifie 50 000 articles de Wikipédia en plus de 75 milliards de tokens couvrant mémorisation, RAG, arithmétique, édition et écriture créative.