Ce site fait s’affronter des IA pour créer des modèles Minecraft

Bien plus fun et créatif que les benchmarks d'IA traditionnels, un groupe de développeurs a eu la bonne idée de mettre en compétition les différentes IA du marché en leur faisant construire... des modèles Minecraft !

Le site MC-Bench — comprenez "Minecraft Benchmark" — invite ses visiteurs à juger les performances des différents moteurs d'intelligence artificielle du marché sur la génération de modèles pour le célèbre jeu le plus vendu au monde.

Le concept est simple : les IA mises en duel reçoivent un prompt (par exemple, "un hot dog", "un mug de café", ou des choses plus élaborées décrivant une scène) et doivent générer du code pour produire cette création dans Minecraft.

La génération d'un ordinateur portable version Minecraft sur MC-Bench

Les utilisateurs du site sont ensuite invités à voter pour la meilleure construction sans savoir quel modèle d’IA l’a réalisée. Ainsi, ce n’est qu’après avoir voté que l’on découvre quelle IA se cache derrière chacun des chefs-d'œuvre (ou pas 👀) cubiques.

Plutôt que d’aller décortiquer le code pour comprendre ce qui fonctionne, on peut simplement juger à l’œil, ce rend le benchmark accessible à un public bien plus large.

À l’origine du projet, on retrouve Adi Singh, un lycéen américain en dernière année (l’équivalent de la terminale chez nous). Pour lui, l’intérêt de Minecraft vient surtout de sa popularité : tout le monde connaît ce jeu. Même sans y avoir jamais joué, il est facile de juger si une construction ressemble — ou non — à un ananas ou à une cabane.

La génération d'un cottage Minecraft sur MC-Bench par deux versions de Gemini

En dehors de l'aspect divertissant, MC-Bench permet aussi de constater que certaines IA brillant dans les benchmarks standards n'atteignent pas forcément le même niveau d'excellence sur d'autres cas d'usage.

Les résultats de MC-Bench, dans lesquels Claude Sonnet s'illustre particulièrement (versions 3.7 et 3.5 en top position devant GPT-4.5) et reflètent ainsi plus fidèlement l’expérience réelle d’un utilisateur lambda que des benchmarks purement textuels.

Le projet est maintenu à ce jour par huit contributeurs, et les entreprises Anthropic, Google, OpenAI et Alibaba ont fourni un soutien en autorisant l'utilisation de leurs modèles pour les tests, mais ne sont pas officiellement impliqués.

Ce site fait s’affronter des IA pour créer des modèles Minecraft

À propos de l'auteur

Nicolas Lecointre

À lire également

Ma phobie administrative a enfin trouvé son fix, et il s’appelle Abby

Articles similaires

OpenAI ouvre l'accès à o1-pro, son modèle d'IA le plus puissant et coûteux pour les développeurs

Meta soupçonné d'avoir triché pour faire briller son nouveau modèle Llama 4 dans les benchmarks d'IA

OpenAI dévoile GPT-4.1 : son modèle IA nouvelle génération pensé pour les développeurs

À peine sorti, un développeur fait tourner le modèle DeepSeek R1 sur un Raspberry Pi

OpenAI ouvre l'accès à o1-pro, son modèle d'IA le plus puissant et coûteux pour les développeurs

Meta soupçonné d'avoir triché pour faire briller son nouveau modèle Llama 4 dans les benchmarks d'IA

OpenAI dévoile GPT-4.1 : son modèle IA nouvelle génération pensé pour les développeurs

À peine sorti, un développeur fait tourner le modèle DeepSeek R1 sur un Raspberry Pi

Plus de contenu

– Tu as testé ton code ? – Oui !

Quand le chef m'attribue une tâche nécessitant plusieurs jours de dev et me dit que c'est à finir pour hier

Quand j'avais anticipé l'évolution des spécifications

Quand le chef me donne une tâche et me dit "c'est pour hier"

Quand le chef nous surprend à glander

Ce moment où tu réveilles tout l'open space

Quand le client demande une mise en prod en fin de journée

Quand un collègue me fait remarquer que j'ai oublié un point essentiel de la spec

– Tu as testé ton code ? – Oui !

Quand le chef m'attribue une tâche nécessitant plusieurs jours de dev et me dit que c'est à finir pour hier

Quand j'avais anticipé l'évolution des spécifications

Quand le chef me donne une tâche et me dit "c'est pour hier"

Quand le chef nous surprend à glander

Ce moment où tu réveilles tout l'open space

Ma phobie administrative a enfin trouvé son fix, et il s’appelle Abby

Un agent IA efface la base de prod d'une startup en seulement 9 secondes, sauvegardes comprises

Ubuntu 26.04 LTS est sorti, et il tourne sur Linux 7.0

Claude Code peut maintenant bosser pendant que vous dormez

Bon plan : profitez du Brand Month de FlexiSpot pour booster votre setup de dev

Allez nickel

Ben quoi ?

Oui c'est bon on a compris

Attends, quoi ?!

Alors ça vraiment aucune idée