Intelligence Artificielle

Meta soupçonné d'avoir triché pour faire briller son nouveau modèle Llama 4 dans les benchmarks d'IA

Un lama qui se cache derrière une clôture

La main dans le sac ? — Le lancement de la famille de nouveaux modèles IA Llama 4 par Meta ce week-end n'a pas manqué de faire du bruit dans les sphères tech.

Présentés comme des poids lourds de l'intelligence artificielle, les modèles Scout et Maverick de la famille Llama 4 ont été annoncés comme les premiers à intégrer l’approche Mixture of Experts (MoE) — une technique d'architecture qui permet d’augmenter la puissance d’un modèle tout en limitant les ressources utilisées à chaque requête.

Mais au-delà des performances techniques affichées, une controverse a rapidement éclaté : Meta aurait soumis une version non publique de Llama 4 sur la plateforme de benchmark LMArena, afin de maximiser son score et sa position au classement.

Un modèle expérimental, calibré pour plaire

LMArena est un site communautaire où les modèles de langage s’affrontent dans des duels en tête-à-tête. Les visiteurs y soumettent une requête, comparent les réponses de deux modèles, et votent pour celle qu’ils jugent la meilleure. Un système de scores permet ensuite de classer les modèles selon leur popularité auprès des humains.

Parmi les prétendants, le modèle Llama-4-Maverick-03-26-Experimental de Meta s’est rapidement hissé à la deuxième place, juste derrière Gemini 2.5 Pro de Google.

Le classement LMArena en date du 9 avril 2025, le modèle Llama 4 de Meta en seconde position Classement LMArena en date du 9 avril 2025

Seul problème : cette version expérimentale du modèle n'était pas disponible au public et semblait spécifiquement conçue pour exceller dans ce type de test — en particulier en ajustant son ton et son style de réponse pour séduire les votants.

Selon LMArena, les résultats montraient que cette version générait des réponses plus longues, plus engageantes, parfois agrémentées d’emojis, contrastant avec la version publique, bien plus concise et formelle. Ce tuning stylistique aurait donné à Meta un avantage injuste par rapport à ses concurrents, qui ont de leur côté soumis des modèles ouverts, disponibles à tous.

"Meta aurait dû être plus clair sur le fait que Llama-4-Maverick-03-26-Experimental était un modèle personnalisé, optimisé pour la préférence humaine", a déclaré LMArena dans un message publié hier :

Face à la polémique, LMArena a décidé de publier plus de 2 000 duels de modèles avec les requêtes (prompts), les réponses, et les préférences exprimées par les utilisateurs.

La plateforme affirme également avoir modifié ses règles pour mieux encadrer les soumissions et éviter que ce type de confusion ne se reproduise à l'avenir : "l’interprétation des règles par Meta ne correspondait pas à ce que nous attendons des fournisseurs de modèles" précise-t-elle.

Un upload de la version publique — comprenez "non expérimentale" — de Llama 4 Maverick depuis Hugging Face vers LMArena est également prévu, afin de fournir une base de comparaison plus transparente.

Meta assume, mais ne s'excuse pas

Meme d'une marionnette qui détourne le regard, avec le logo de Meta sur sa tête

Meta, de son côté, ne nie rien. La société reconnaît avoir soumis une version expérimentale optimisée pour le dialogue, mais insiste sur sa "démarche exploratoire".

Un porte-parole a confirmé : "Llama-4-Maverick-03-26-Experimental est une version optimisée pour la conversation que nous avons testée et qui s’est bien comportée sur LMArena."

Dans le billet d'annonce du lancement de Llama 4 sur son blog officiel, Meta mentionne d’ailleurs cette version et son score de 1417 sur LMArena, sans expliciter qu’il s’agissait d’une mouture différente de celle publiée publiquement.

Mais de nombreux observateurs, y compris des chercheurs en IA, ont estimé que la distinction n'était pas claire, créant un fossé entre les performances annoncées et celles constatées par les utilisateurs une fois le modèle disponible.

À la guerre comme à la guerre

L’affaire est d’autant plus sensible que Llama 4 Maverick est présenté comme un concurrent sérieux aux modèles fermés d’OpenAI, Anthropic et Google.

Meta affirme que Maverick surpasse GPT-4o et Gemini 2.0 Flash sur de nombreux benchmarks. Mais cette annonce a rapidement été entachée par ces soupçons d’optimisation biaisée.

Ahmad Al-Dahle, responsable de Meta GenAI, a tenté de justifier les écarts de performance en évoquant une variabilité selon les plateformes ou services utilisés pour exécuter le modèle, encore en cours de stabilisation. Il a également nié toute accusation de triche sur les jeux de test.

Cette controverse intervient alors que Meta fait aussi parler sur le terrain de la neutralité politique de ses modèles.

La société assure que Llama 4 serait désormais moins biaisé, plus ouvert à une diversité de points de vue, et qu’il refuse moins souvent de répondre à des sujets sensibles. Un revirement stratégique assumé, qui s’accompagne de nouveaux efforts de test en sécurité (notamment via son programme GOAT, pour "Generative Offensive Agent Testing").

Les modèles Llama 4 sont disponibles sur Hugging Face en open source, bien que cette appellation soit contestée par l’Open Source Initiative, qui a déjà pointé des restrictions pour les utilisateurs européens.

À lire aussi sur Les Joies du Code :

À propos de l'auteur
Nicolas Lecointre
Chief Happiness Officer des développeurs, ceinture noire de sudo. Pour rire, j'ai créé Les Joies du Code. J'utilise Vim depuis 10 ans parce que je sais pas comment le quitter.
Événements

Événement : la conférence phare de NVIDIA débarque à Paris, participez à GTC

Un aperçu de l'intérieur d'une conférence GTC - GTC Sans Jose

Événement — NVIDIA organise pour la première fois en Europe sa cultissime conférence GTC, un rendez-vous incontournable consacré à l’intelligence artificielle, au calcul accéléré et aux technologies émergentes.

Et devinez quoi ? Ça se passera à Paris (cocorico 🇫🇷) ! Du 10 au 12 juin, GTC prendra place au cœur du salon Viva Technology 2025, au Paris Expo Porte de Versailles. L’occasion rêvée de prendre part à cet événement majeur de la tech à l’échelle mondiale !

Je réserve ma place pour NVIDIA GTC Paris

# En partenariat avec NVIDIA

Du 10 au 12 juin, Paris devient le centre de gravité de l’IA mondiale

Eh oui les amis ! Parce que croyez-moi, on ne parle pas ici d’un petit stand calé entre deux robots baristas de démo dans un coin du salon.

GTC Paris se présente en effet comme une déclinaison en bonne et due forme de la conférence phare de NVIDIA, et s’annonce tout aussi ambitieuse que sa grande sœur californienne.

Celle-ci sera présente au Pavillon 7 du complexe, où seront exposées des solutions de l’écosystème IA, et où se dérouleront des dizaines de conférences.

Au programme : des keynotes de haut niveau, des démos concrètes, des sessions techniques pour tous les profils et des tables rondes avec des experts, des startups et de grands groupes et industries.

Les sujets abordés porteront sur de nombreuses thématiques, parmi lesquelles : l’entraînement et l’inférence de l’IA, l’IA agentique, les infrastructures (data center, cloud) dédiées à l’IA, le calcul haute performance (HPC), l’informatique quantique, la robotique et l’IA industrielle, ou encore l’IA souveraine.

Ce sera également l’occasion de vous faire tirer votre portrait par l’IA au Developer Wall, une installation immersive présentée sous forme de fresque numérique valorisant la communauté des développeurs en temps réel. Conçue en collaboration avec l’IA Deep Art et le moteur graphique Notch, elle se renouvelle toutes les 30 secondes pour transformer votre profil et vos contributions en véritables œuvres d’art.

Le Dev Wall à NVIDIA GTC pour afficher vos plus beaux portraits générés par IA

Je m’inscris à GTC Paris

Preuve de l’importance de l’événement : le fondateur et CEO emblématique de NVIDIA, Jensen Huang lui-même, prendra la parole lors d’une keynote d’ouverture le 11 juin à 11 heures au Dôme de Paris.

Il y présentera les dernières avancées technologiques de NVIDIA ainsi que sa vision de l’intelligence artificielle — thème majeur de la 9ème édition de VivaTech — et de l’innovation.

Le PDG de NVIDIA Jensen Huang en train de donner une keynote à GTC

La keynote est incluse dans les pass GTC ou VivaTech, et sera également diffusée en ligne gratuitement.

Bon à noter : l'obtention d'un pass GTC vous donnera un accès intégral à VivaTech. 👀

Avis aux intéressés : cette intervention se tiendra de toute évidence à guichets fermés, je ne peux que vous recommander chaleureusement de venir bien (bien bien bien) avant l’ouverture des portes ! 😉

Musclez votre jeu de développeur avec les ateliers et formations de NVIDIA GTC Paris

MAIS CE N’EST PAS TOUT !

Car au-delà des talks et démos, GTC Paris vous propose aussi de passer à l’action.

Le 10 juin, veille de l’ouverture officielle de VivaTech, NVIDIA vous donne rendez-vous pour toute une série d’ateliers techniques immersifs, animés par des formateurs de son Deep Learning Institute (DLI).

L’objectif : monter en compétences, manipuler les outils et solutions NVIDIA de nouvelle génération, mais aussi repartir avec une certification NVIDIA officielle — avouez que ça claque fort sur le CV. 👀

Je m’inscris aux ateliers techniques NVIDIA (10 juin)

Parmi les sessions proposées par NVIDIA sur cette journée :

  • L’ajout de nouvelles connaissances aux grands modèles de langage (LLM), qui explorera l’adaptation des LLM à vos propres cas d’usage, de la préparation des données à leur fournir jusqu’à la mise en prod.
  • Le développement d’agents IA multimodaux, capables de traiter différents types de données en explorant plusieurs techniques de fusion.
  • CUDA, Omniverse, Robotique et RAG : des ateliers plus pointus pour les profils déjà expérimentés.

À l’occasion de GTC Paris, un tarif spécial est appliqué sur ces ateliers techniques, proposés à 275 € TTC la journée, certification incluse, au lieu de 485 € en tarif standard.

À noter que tous les ateliers se dérouleront in English et se tiendront également à Paris Expo Porte de Versailles.

Concours Les Joies du Code : tentez de remporter une NVIDIA®GeForce RTX™ 4080 !

Pour marquer cet événement exceptionnel, une carte graphique NVIDIA®GeForce RTX™ 4080 Founders Edition est mise exclusivement en jeu pour la communauté des Joies du Code ! 🤩

Carte graphique NVIDIA®GeForce RTX™ 4080

Pour prendre part à ce concours, rien de compliqué (vous me voyez venir, non ? 😉) : il vous suffit de participer à GTC Paris !

  • Réservez votre pass de 2 jours à GTC Paris (11 et 12 juin)
  • Partagez une photo de votre badge GTC sur X, LinkedIn ou Bluesky
  • Mentionnez Les Joies du Code et le hashtag #GTCParis
  • La participation à un atelier le 10 juin doublera vos chances de gagner (pensez également à prendre en photo le bracelet qui vous sera remis 💡) !

📆 Tirage au sort le lundi 16 juin à 10h

Je m’inscris dès maintenant à GTC Paris

Je serai personnellement à GTC pour couvrir l’événement et rencontrer sa communauté, n’hésitez pas à me faire signe si vous voulez qu’on s’y capte ! 👋