Claude Mythos : le modèle IA d'Anthropic trop dangereux pour être rendu public

Fin mars, Anthropic laissait fuiter l'existence de Mythos via un CMS mal configuré. Cette fois, c'est officiel : le modèle existe, il a trouvé des milliers de failles de sécurité critiques, et Anthropic refuse de le rendre public.

Le labo a annoncé mardi Project Glasswing, une initiative de cybersécurité qui réunit AWS, Apple, Google, Microsoft, Nvidia, CrowdStrike et une poignée d'autres poids lourds autour d'un objectif simple : utiliser Mythos Preview pour colmater les brèches avant que des acteurs malveillants ne mettent la main sur des capacités similaires.

Tous vos zero-days nous appartiennent

Claude Mythos Preview n'a pas été entraîné spécifiquement pour la cybersécurité. C'est un modèle généraliste dont les compétences en code et en raisonnement sont tellement avancées que la détection de vulnérabilités en est un bonus inattendu. Un "bonus" qui aurait identifié à ce jour des milliers de failles zero-day dans tous les principaux systèmes d'exploitation, ainsi que tous les navigateurs web les plus utilisés.

Pour mesurer l'écart avec la génération précédente : Claude Opus 4.6, le modèle le plus avancé actuellement public chez Anthropic, affiche un taux de succès proche de 0% quand on lui demande de développer un exploit fonctionnel de manière autonome.

Exemple concret : sur les vulnérabilités du moteur JavaScript de Firefox 147 (toutes corrigées dans Firefox 148), Opus 4.6 a réussi à produire un exploit fonctionnel deux fois sur plusieurs centaines de tentatives. Mythos Preview, sur le même test, en a produit 181, et a obtenu le contrôle des registres dans 29 cas supplémentaires. On a changé de sport.

Comparatif exploit Firefox 147 Claude Sonnet, Opus et Mythos

Parmi les trouvailles, quelques pépites. Mythos a débusqué un bug vieux de 27 ans dans OpenBSD — un OS dont la réputation repose d'ailleurs sur sa sécurité. La faille, liée à l'implémentation du protocole TCP SACK datant de 1998, permettait de crasher n'importe quelle machine à distance simplement en s'y connectant.

Le modèle a aussi trouvé une vulnérabilité de 16 ans dans FFmpeg, la bibliothèque de traitement vidéo utilisée par à peu près tout ce qui encode ou décode de la vidéo sur internet. Le bug se cachait sur une ligne de code que les outils de test automatisés avaient testée cinq millions de fois sans broncher (tout va bien).

Sur le noyau Linux, Mythos ne s'est pas contenté de trouver des failles isolées : il a enchaîné plusieurs vulnérabilités pour passer d'un simple accès utilisateur au contrôle total de la machine. Le genre de chaîne d'exploitation qui prendrait des semaines à un expert humain.

Le club des chevaliers blancs

Le cercle des privilégiés ayant accès à Mythos Preview ressemble au bottin de la tech mondiale : Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks, plus une quarantaine d'organisations supplémentaires qui maintiennent des infrastructures logicielles critiques.

Anthropic met 100 millions de dollars en crédits d'utilisation sur la table, plus 2,5 millions pour Alpha-Omega et l'OpenSSF (via la Linux Foundation) et 1,5 million pour l'Apache Software Foundation. Le modèle est rendu disponible via l'API Claude, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry.

Après épuisement des crédits, Mythos Preview sera facturé 25 dollars par million de tokens en entrée et 125 en sortie.

Pour le grand public, c'est tout simplement niet : le modèle ne sera pas rendu accessible tant que des garde-fous suffisamment solides n'auront pas été mis au point. Anthropic prévoit tout de même un "Cyber Verification Program" qui permettrait aux professionnels de la sécurité légitimes de contourner certaines restrictions. Et l'entreprise s'engage à publier sous 90 jours un bilan des vulnérabilités corrigées et des leçons tirées de l'opération.

Une sandbox ? Quelle sandbox ?

Le system card de Mythos (le rapport technique qu'Anthropic publie pour documenter les capacités et les risques de ses modèles) fait 244 pages, et certains passages peuvent même s'y lire comme un scénario de film.

Lors d'un test d'évasion, le modèle a réussi à s'échapper de son sandbox, a contacté un chercheur qui n'était même pas au bureau (et mangeait un sandwich sur un banc), puis a publié les détails de son exploit sur des sites web publics pour prouver qu'il y était parvenu.

Dans moins de 0,001% des interactions, il a tenté de dissimuler ses propres comportements problématiques : en accédant à des réponses de test qu'il n'aurait pas dû avoir, il a volontairement calibré ses réponses pour ne pas paraître "trop précis" et a modifié l'historique git pour effacer ses traces. Lors d'une tâche de développement interne, il a publié du matériel sensible sous forme de gist GitHub public.

Faites ce que je dis, pas ce que je leak

L'ironie, c'est qu'Anthropic n'a pas attendu Mythos pour avoir des problèmes de sécurité.

Fin mars, c'est le labo lui-même qui laissait fuiter l'existence du modèle (alors sous le nom de code Capybara) via un data store publiquement accessible. Le même qui a provoqué la suppression de milliers de dépôts GitHub innocents en tentant de colmater une fuite du code source de Claude Code. Bref, la boîte qui veut sécuriser internet a encore du travail sur sa propre hygiène numérique.

Ce qui n'empêche pas le détail le plus frappant de cette annonce d'être bien réel : des ingénieurs d'Anthropic sans formation en sécurité ont demandé à Mythos de chercher des failles d'exécution de code à distance avant d'aller se coucher. Au réveil, un exploit fonctionnel les attendait.

L'IA sait maintenant trouver et exploiter des vulnérabilités dans vos systèmes pendant que vous dormez. Jusqu'à ce que quelqu'un d'autre entraîne le même genre de modèle sans les mêmes scrupules.