Pourquoi les LLM, si brillament prédictifs sont incapables de l’intelligence d’un chat (LeCun)

Dans sa leçon inaugurale au Collège de France en 2016 Yann LeCun, un des fondateurs de l’IA expliquait comment l’approche cognitive des enfants de Jean Piaget était à la base du deep learning qui a produit les grands modèles de langage predictifs. Mais ces LLM ne comprennent pas le monde. Ils prédisent des mots nous explique Yann LeCun

A partir d’une séquence de mots, le modèle calcule statistiquement quel mot ou fragment de mot (token) doit venir ensuite. Puis il recommence, token après token, sans jamais disposer d’un plan d’ensemble, sans jamais vouloir dire quelque chose.
Ce processus produit des textes remarquablement cohérents. Mais la cohérence textuelle n’est pas la pensée.

Un LLM peut gagner le concours du barreau, prédire un cancer ou citer Proust et éventuellement singer le style de « A la recherche du temps perdu », mais il est incapable d’intelligence, qui edt dune autre nature. Son processus produit des textes remarquablement cohérents. Mais la cohérence textuelle n’est pas la pensée. Les animaux sont intelligents, prédictifs, capables de réagir à des évènements inconnus, et pourtant ils ne parlent pas.

Si l’on veut des systèmes véritablement intelligents, capables d’agir dans le monde réel, pas seulement d’en parler, il faut s’attaquer à l’apprentissage incarné (embodied learning).

Comme le montre Yann LeCun dans un article  :

 » Les modèles actuels manipulent la langue, accumulent des connaissances factuelles, passent l’examen du barreau – le fameux test américain indispensable pour devenir avocat – et sont très doués pour écrire du code. Mais ils n’ont même pas une compréhension du monde physique équivalente à celle d’un chat de gouttière. »

 » Les LLM ne raisonnent pas, ils prédisent le mot suivant de manière autorégressive, c’est-à-dire en calculant statistiquement la suite logique des mots précédents, un par un, sans aucun plan d’ensemble. Si l’on veut des robots domestiques ou industriels, il faut arrêter de se focaliser sur le langage et s’attaquer au monde réel. »

« C’est une question de données. Un nerf optique humain transmet environ 2 mégaoctets par seconde. Un enfant de 4 ans, éveillé environ 16 000 heures, a reçu quelque 1 014 octets de données visuelles. Or les plus gros LLM actuels, comme Llama 3, entraînés sur des dizaines de milliers de milliards de tokens – ces fragments de mots ou syllabes qui servent d’unité de base à l’IA –, représentent exactement le même volume. Un LLM a besoin de lire toute la littérature de l’humanité pour paraître intelligent, alors qu’un enfant de 4 ans, avec le même volume de données perçues visuellement, a déjà compris la physique, la gravité et comment interagir avec le monde. On n’arrivera jamais à l’intelligence de niveau humain simplement en entraînant des machines sur du texte. »


Cela signifie former des modèles non pas sur des bibliothèques de textes, mais sur des flux sensoriels riches : données visuelles, proprioceptives, tactiles, temporelles. Cela signifie concevoir des agents capables d’interagir avec leur environnement, d’échouer, de corriger, d’apprendre par l’expérience physique, comme le font les animaux ou les enfants.

LeCun propose une approche Jepa plus proche de lintelligence humaine.

JEPA est un cadre d’apprentissage auto-supervisé qui vise à faire apprendre l’IA comme les humains, en prédisant des parties du monde à partir d’autres parties observées.
Le mécanisme central est le suivant : le modèle prend deux entrées liées (deux images, deux séquences vidéo consécutives), les encode chacune dans une représentation abstraite, et tente de prédire la représentation de la seconde à partir de la première.
Ce qui distingue fondamentalement JEPA des LLM et des modèles génératifs, c’est que JEPA effectue ses prédictions dans un espace de représentation abstrait, plutôt que de générer directement des sorties à partir des entrées . Autrement dit, il ne cherche pas à reconstituer chaque pixel d’une image ou chaque mot d’une phrase, il prédit des concepts, pas des détails.


Comme l’explique LeCun  :

 » L’approche Jepa prend le problème à l’envers : le système apprend à transformer la réalité en une représentation abstraite, un résumé intelligent du monde, en éliminant ce qui est superflu. Quand on apprend à faire de la voile, on se construit un modèle mental du flux d’air sur la voile, on comprend intuitivement comment le vent pousse, comment orienter la voile, sans simuler la mécanique des fluides molécule par molécule. C’est exactement cette différence entre « tout simuler » et « comprendre l’essentiel » qui sépare les deux approches. »

Laisser un commentaire