Intelligence Artificielle

Meta soupçonné d'avoir triché pour faire briller son nouveau modèle Llama 4 dans les benchmarks d'IA

Un lama qui se cache derrière une clôture

La main dans le sac ? — Le lancement de la famille de nouveaux modèles IA Llama 4 par Meta ce week-end n'a pas manqué de faire du bruit dans les sphères tech.

Présentés comme des poids lourds de l'intelligence artificielle, les modèles Scout et Maverick de la famille Llama 4 ont été annoncés comme les premiers à intégrer l’approche Mixture of Experts (MoE) — une technique d'architecture qui permet d’augmenter la puissance d’un modèle tout en limitant les ressources utilisées à chaque requête.

Mais au-delà des performances techniques affichées, une controverse a rapidement éclaté : Meta aurait soumis une version non publique de Llama 4 sur la plateforme de benchmark LMArena, afin de maximiser son score et sa position au classement.

Un modèle expérimental, calibré pour plaire

LMArena est un site communautaire où les modèles de langage s’affrontent dans des duels en tête-à-tête. Les visiteurs y soumettent une requête, comparent les réponses de deux modèles, et votent pour celle qu’ils jugent la meilleure. Un système de scores permet ensuite de classer les modèles selon leur popularité auprès des humains.

Parmi les prétendants, le modèle Llama-4-Maverick-03-26-Experimental de Meta s’est rapidement hissé à la deuxième place, juste derrière Gemini 2.5 Pro de Google.

Le classement LMArena en date du 9 avril 2025, le modèle Llama 4 de Meta en seconde position Classement LMArena en date du 9 avril 2025

Seul problème : cette version expérimentale du modèle n'était pas disponible au public et semblait spécifiquement conçue pour exceller dans ce type de test — en particulier en ajustant son ton et son style de réponse pour séduire les votants.

Selon LMArena, les résultats montraient que cette version générait des réponses plus longues, plus engageantes, parfois agrémentées d’emojis, contrastant avec la version publique, bien plus concise et formelle. Ce tuning stylistique aurait donné à Meta un avantage injuste par rapport à ses concurrents, qui ont de leur côté soumis des modèles ouverts, disponibles à tous.

"Meta aurait dû être plus clair sur le fait que Llama-4-Maverick-03-26-Experimental était un modèle personnalisé, optimisé pour la préférence humaine", a déclaré LMArena dans un message publié hier :

Face à la polémique, LMArena a décidé de publier plus de 2 000 duels de modèles avec les requêtes (prompts), les réponses, et les préférences exprimées par les utilisateurs.

La plateforme affirme également avoir modifié ses règles pour mieux encadrer les soumissions et éviter que ce type de confusion ne se reproduise à l'avenir : "l’interprétation des règles par Meta ne correspondait pas à ce que nous attendons des fournisseurs de modèles" précise-t-elle.

Un upload de la version publique — comprenez "non expérimentale" — de Llama 4 Maverick depuis Hugging Face vers LMArena est également prévu, afin de fournir une base de comparaison plus transparente.

Meta assume, mais ne s'excuse pas

Meme d'une marionnette qui détourne le regard, avec le logo de Meta sur sa tête

Meta, de son côté, ne nie rien. La société reconnaît avoir soumis une version expérimentale optimisée pour le dialogue, mais insiste sur sa "démarche exploratoire".

Un porte-parole a confirmé : "Llama-4-Maverick-03-26-Experimental est une version optimisée pour la conversation que nous avons testée et qui s’est bien comportée sur LMArena."

Dans le billet d'annonce du lancement de Llama 4 sur son blog officiel, Meta mentionne d’ailleurs cette version et son score de 1417 sur LMArena, sans expliciter qu’il s’agissait d’une mouture différente de celle publiée publiquement.

Mais de nombreux observateurs, y compris des chercheurs en IA, ont estimé que la distinction n'était pas claire, créant un fossé entre les performances annoncées et celles constatées par les utilisateurs une fois le modèle disponible.

À la guerre comme à la guerre

L’affaire est d’autant plus sensible que Llama 4 Maverick est présenté comme un concurrent sérieux aux modèles fermés d’OpenAI, Anthropic et Google.

Meta affirme que Maverick surpasse GPT-4o et Gemini 2.0 Flash sur de nombreux benchmarks. Mais cette annonce a rapidement été entachée par ces soupçons d’optimisation biaisée.

Ahmad Al-Dahle, responsable de Meta GenAI, a tenté de justifier les écarts de performance en évoquant une variabilité selon les plateformes ou services utilisés pour exécuter le modèle, encore en cours de stabilisation. Il a également nié toute accusation de triche sur les jeux de test.

Cette controverse intervient alors que Meta fait aussi parler sur le terrain de la neutralité politique de ses modèles.

La société assure que Llama 4 serait désormais moins biaisé, plus ouvert à une diversité de points de vue, et qu’il refuse moins souvent de répondre à des sujets sensibles. Un revirement stratégique assumé, qui s’accompagne de nouveaux efforts de test en sécurité (notamment via son programme GOAT, pour "Generative Offensive Agent Testing").

Les modèles Llama 4 sont disponibles sur Hugging Face en open source, bien que cette appellation soit contestée par l’Open Source Initiative, qui a déjà pointé des restrictions pour les utilisateurs européens.

À lire aussi sur Les Joies du Code :

À propos de l'auteur
Nicolas Lecointre
Chief Happiness Officer des développeurs, ceinture noire de sudo. Pour rire, j'ai créé Les Joies du Code. J'utilise Vim depuis 10 ans parce que je sais pas comment le quitter.
Événements

Hackathon grandeur nature : codez au Parc des Princes, 150 000 dollars à la clé

Participez au hackathon Hacking Paris de Chiliz, du 11 au 13 juillet 2025 au Parc des Princes

Hackathon Hacking Paris 2025 — Croyez-moi, des hackathons, j’en ai vu passer. Mais DANS UN STADE et qui plus est au Parc des Princes, permettez-moi de vous le dire : c’est du jamais vu.

# En partenariat avec Chiliz

À vos agendas : du 11 au 13 juillet 2025, Chiliz, qui propose aux fans de sport et d'e-sport de se rapprocher de leurs clubs et athlètes préférés, organise un hackathon grandeur nature dans l’antre historique du PSG.

Hacking Paris est un événement 100% gratuit, pensé pour les développeurs et ceux qui s’intéressent à la blockchain, avec pour objectif de donner vie à vos projets pour faire évoluer l’écosystème.

Je participe au hackathon 🤩

150 000 dollars à la clé

Vous avez bien lu. CENT. CINQUANTE. MILLE. DOLLARS.

Dans ce hackathon, les meilleures idées ne repartiront pas juste avec les félicitations du jury et un .zip de leur projet. 👀

150 000 dollars sont mis en jeu par Chiliz pour récompenser les projets gagnants, répartis sur 5 grandes thématiques :

  • Utilisation des fan tokens : 50 000 $
  • Contenus créés par les fans et plateformes de monétisation : 24 000 $
  • Outils ou services DeFi (finance décentralisée) : 22 000 $
  • Agents ou outils basés sur l’IA pour le sport : 22 000 $
  • Fonctionnalités et connectivité du portefeuille Socios : 22 000 $
  • Récompenses spéciales : 10 000 $

Je m’inscris à Hacking Paris ⚽️

Construisez le futur de l’engagement sportif

Hacking Paris invite les développeurs à imaginer des applications décentralisées capables de réinventer la relation entre les clubs et leurs supporters. 🙌

Fan tokens, gouvernance décentralisée, NFTs, expériences immersives dans les stades… Cet événement XXL sera l’occasion de monter vos projets, et cela durant les trois jours du hackathon.

Le stade du Parc des Princes, où prendra lieu le hackathon Hacking Paris

Pas besoin d’être un expert de la Chiliz Chain pour participer : les ressources et la documentation nécessaires sont fournies — accessibles depuis le site de l’événement —, et des mentors seront présents sur place pour vous accompagner, avec une première journée de workshops pour vous permettre de prendre en main les outils et affiner votre projet.

Dès le début de soirée de cette première journée (vendredi 11 juillet) : les choses sérieuses commencent. 🔥

Vous serez alors libres de vous lancer sur le développement des solutions que vous aurez imaginées, qui devrait vous tenir en haleine jusqu’au dimanche midi, où débuteront les démos des projets.

Des invités de renom devraient également prendre part à l’événement (line-up à venir), de quoi nourrir l’effervescence qui régnera au Parc des Princes pendant ces trois jours d’innovation.

Pourquoi participer ?

En plus des prix exceptionnels, Hacking Paris permet de se connecter à une communauté Web3 internationale, d’échanger avec des experts du secteur et d’explorer des opportunités concrètes dans l’écosystème Chiliz, au-delà du hackathon.

Les projets retenus pourront quant à eux bénéficier d’un accompagnement après l’événement, et gagner en visibilité auprès d’acteurs clés du sport et de la tech.

Je m’inscris dès maintenant pour Hacking Paris — du 11 au 13 juillet au Parc des Princes (GRATUIT) 🏟️