Sortie d’EuroLLM-22B, un grand modèle de langage entièrement open-source, entraîné en Europe
Aujourd’hui, le consortium européen #EuroLLM annonce la sortie d’EuroLLM-22B, un grand modèle de langage entièrement open-source, entraîné en Europe et couvrant l’ensemble des 24 langues officielles de l’Union européenne.
Cette innovation a été co-conçue au laboratoire MICS de CentraleSupélec par Hippolyte Gisserot-Boukhlef, doctorant CIFRE au Artefact Research Center, avec la contribution de Nicolas Boizard, doctorant CIFRE chez Diabolocom, sous la supervision de Pierre Colombo et Céline Hudelot. Ils ont travaillé main dans la main avec l’équipe de l’Instituto Superior Técnico de Lisbonne, en particulier Miguel Moura Ramos et Duarte Alves, acteurs clés du projet supervisés par André Martins.
Avec 22 milliards de paramètres, EuroLLM-22B établit un nouveau standard pour les modèles multilingues : des performances compétitives, voire supérieures, à celles de modèles industriels internationaux de taille comparable, tout en étant conçus dès l’origine pour la diversité linguistique européenne.
- EuroLLM-22B couvre les 24 langues officielles de l’UE + 11 langues supplémentaires, et s’étendra dès 2026 vers des capacités multimodales (texte, parole, vision, vidéo) grâce à un accès exascale sur le supercalculateur Jupiter.
- Open-source par design, EuroLLM-22B peut être librement utilisé, étudié et adapté par les chercheurs, les startups, les PME et les institutions publiques. L’objectif : réduire la dépendance aux modèles fermés extra-européens et créer un véritable effet d’entraînement pour l’innovation en Europe.
- Entraîné from scratch sur le supercalculateur MareNostrum 5 du Barcelona Supercomputing Center, soutenu par Horizon Europe et EuroHPC, pilier stratégique de l’infrastructure européenne de calcul intensif, et par un large consortium académique et industriel européen réunissant notamment l’Instituto Superior Técnico de Lisbonne, l’Instituto de Telecomunicações, l’University of Edinburgh, CentraleSupélec – Université Paris-Saclay, Sorbonne Université, l’University of Amsterdam, Naver Labs, Unbabel, Aveni, Artefact Research Center et Diabolocom.
Ainsi que le souligne Pierre Colombo (Centrale Supélec - Université Paris-Saclay), « L’Europe dispose désormais à la fois de modèles de compréhension (comme EuroBERT) et de modèles génératifs puissants, construits sur notre réalité linguistique — c’est cela, la souveraineté numérique. »
EuroLLM-22B est disponible dès aujourd’hui sur Hugging Face, avec des résultats détaillés sur les benchmarks publics. Une étape clé pour une IA européenne ouverte, inclusive et alignée avec nos valeurs.