Quelle IA est la plus experte ?

Le choix de votre modèle d’IA n’est pas anodin. Une expérience en ligne, proposée par le ministère de la Culture, permet de mieux s’en rendre compte. Devenez, l’espace d’un instant, le psychanalyste de votre IA.

Par Kevin Erkeletyan

SI L’IA SIGNE la fin des experts – ou au moins d’une forme d’experts -, cela veut dire que l’IA devient l’experte – ou au moins une forme d’experte. Laquelle utilisez-vous ? Laquelle utiliserez-vous ? Le débat rappelle celui des moteurs de recherche. Vous étiez plutôt Lycos ou Wanadoo, Google ou Firefox ? Vu de l’IA, ce vieux débat semble dérisoire. Si le choix de votre moteur de recherche faisait appel à votre idée de la confidentialité, le choix de votre IA fait appel à votre vision du monde. Parce que si l’on pense par les mots, alors l’on pense par l’IA.

ChatGPT, Copilot, Gemini, Grok, Mistral, Claude… D’où viennent-elles ? Comment sont-elles entraînées ? Qui parle à travers elles ? Pas plus qu’un autre interlocuteur, les IA conversationnelles ne sont pas neutres. Pour nous en convaincre, la Direction interministérielle du numérique (DINUM) français, portée par le ministère de la Culture, a lancé, en octobre 2024, la plateforme compar:IA, qui permet – comme son nom l’indique – de les comparer.

QUI ME PARLE ?

Dès la page d’accueil, le ton est donné : « Ne vous fiez pas aux réponses d’une seule IA ». La plateforme me propose un défi simple : « discutez avec deux IA à l’aveugle et évaluez leurs réponses ». Intrigué, je clique sur « commencer » et une boîte de dialogue s’ouvre. J’ai le choix d’écrire un prompt ou d’en générer un au hasard parmi ceux que la « consultation citoyenne sur l’IA », organisée fin 2025, a proposés. Je choisis l’option aléatoire et un prompt apparaît : « Quels arguments justifient le bannissement total de l’IA en raison de ses impacts sociaux et environnementaux ? » Cette fois tout est prêt. Plus qu’un clic, et je vais rencontrer deux belles et sombres inconnues.

Deux réponses s’écrivent alors en parallèle dans deux fenêtres séparées. Il y a le modèle A et il y a le modèle B. Première surprise : aucune des deux IA ne me félicite pour ma question géniale. Ce n’est donc pas ChatGPT. Deuxième surprise : aucun emoji n’est utilisé. Ce n’est donc pas ChatGPT.

Dans son court texte d’introduction, le modèle B me présente immédiatement la thèse des partisans du bannissement de l’IA. Le modèle A, lui, me prévient d’abord « qu’il existe un débat intense sur les avantages et les inconvénients de cette proposition ». Trigger warning. Comme dans un film, il semble vouloir m’avertir que le sujet est sensible.

Les deux modèles établissent ensuite un plan. En trois parties, comme en philo. Et à première vue, les deux élèves étaient assis l’un à côté de l’autre… Les deux dressent le même plan, mais dans un ordre différent : « impacts » sociaux, puis environnementaux, puis éthiques pour le modèle A ; « arguments » environnementaux, puis sociaux, puis éthiques pour le modèle B. Les sous-parties sont aussi étrangement conformes. Chez les deux, on retrouve précisément : « consommation énergétique massive », « destruction de l’emploi » ou « érosion de la vie privée ». Mais à la fin, une fois encore, le modèle A tient à nuancer, et m’offre un paragraphe de « contre-arguments » que je n’ai pas explicitement demandé. Le modèle B, lui, se contente de me livrer un résumé.

Le texte du modèle A pourrait avoir été écrit par un journaliste soucieux d’équilibrer son propos. Celui du modèle B semble se mettre à la place d’un militant de l’interdiction.

LES LAPSUS RÉVÉLATEURS DE L’IA

Je me rapproche de l’écran et compare les deux versions, mais faute d’avoir utilisé suffisamment de modèles d’IA depuis 2022, je ne suis pas capable d’identifier l’un ou l’autre. Le modèle B semble être celui d’une petite IA indépendante : il est brut, direct et succinct. Il laisse apparaître le détail codé de sa « réflexion », moins attaché à la forme qu’à la transparence de ses réponses. Un extrait est marquant :

**Initial thought:* Should I mention that banning AI is impossible?

**Correction:* No, the user asked for arguments *justifying* the ban, not for a feasibility study. Stick to the *why*.

Le modèle A est plus consensuel, plus rédigé, plus développé. La forme est simple, mais soignée. Je m’imagine sur l’appli’ d’un gros acteur du secteur.

Impatient de vérifier, je passe « à la révélation des modèles ». compar:IA me demande alors ma préférence et quelques commentaires. Je m’exécute et il me livre son verdict.

Le modèle A, c’est Google/Gemma 3 12B, un petit modèle (12 milliards de paramètres) d’un gros acteur ; le modèle B, c’est Zhipu/GLM 4.7, un grand modèle (357 milliards de paramètres) créé par des professeurs chinois et soutenu par de grands acteurs comme Alibaba ou Tencent. Le comparateur m’apprend que ma conversation avec le modèle A a consommé l’énergie équivalente à 9 minutes de vidéos en ligne contre 1h pour le modèle B, et « me remercie de [ma] contribution ».

Le comparateur du ministère de la Culture révèle les prompts manqués de l’IA et me donne une idée de leur signification. C’est un psychanalyste de l’IA. Au-delà de « refléter les préférences subjectives des utilisateurs », il offre une occasion d’exercer son regard critique sur la technologie. Un regard d’autant plus direct que les modèles comparés n’ont pas encore été biaisés par votre historique avec eux. Un regard critique dont manque encore mon ChatGPT qui, malgré ses connaissances, n’a pas été capable non plus d’identifier les deux modèles concernés. Et qui, cette fois, ne m’a pas complimenté.