LLMs : nouvel article marquant du laboratoire MICS

Une équipe du laboratoire MICS vient d'annoncer la publication d’un article marquant concernant l'évolution des modèles de langage de grande taille (LLMs).

Le 08 octobre 2025
Image
Nouveau moment marquant dans le monde des modèles de langage de grande taille (LLMs) avec la publication d’un article d’une équipe du laboratoire MICS :  «  When Does Reasoning Matter? Unpacking the Contribution of Reasoning to LLM Performance. »
  • Partager
  • Cette étude s'intitule : 'When Does Reasoning Matter? Unpacking the Contribution of Reasoning to LLM Performance.'

    Ces dernières années, la capacité de raisonnement est devenue l’un des thèmes centraux des débats autour des modèles de langage de grande taille (LLMs). Ces modèles, capables de générer explicitement des Chains of Thought(CoT), montrent régulièrement des performances à la pointe, notamment dans des domaines complexes comme les mathématiques et la programmation. 

    Cependant, malgré leur succès empirique, plusieurs questions cruciales restent peu explorées :

    • Quelles tâches bénéficient réellement du raisonnement ? 
       
    • A quelle échelle de modèle, et à quel coût par rapport à l’Instruction Fine-Tuning (IFT) classique ?

    Pour répondre à cela, l'équipe du MICS a conçu un environnement contrôlé qui isole les signaux de raisonnement grâce à des données dites synthétiques. Nous avons ensuite analysé l’effet du raisonnement sur cinq modèles de tailles variées et évalué rigoureusement ces modèles entraînés sur 12 benchmarks divers, couvrant des tâches centrées sur les mathématiques et des tâches générales. 

    Cet environnement contrôlé a permis de comparer directement les performances des modèles IFT et des modèles de raisonnement selon différentes échelles et types de tâches.

     

    Points-clés à retenir : 
     

    • Le raisonnement améliore les performances : les modèles de raisonnement peuvent égaler les performances de modèles IFT beaucoup plus grands.
       
    • L’échelle compte : le raisonnement excelle à partir de modèles de 7B+, dépassant les limites de l’IFT. Cependant, augmenter la taille des modèles IFT sous ce seuil permet d’atteindre des performances similaires.
       
    • Sensibilité aux tâches : les tâches ouvertes et mathématiques bénéficient le plus du raisonnement, tandis que les tâches générales à choix multiple restent moins sensibles. 

    Lire aussi : Plus grands jeux de données appariés raisonnement–IFT.

    Un grand bravo à toute l’équipe derrière ce projet : Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El Haddad, Céline Hudelot et Pierre Colombo. Un grand merci également aux partenaires Diabolocom et Artefact.