Claude Mythos : l'IA trop dangereuse pour le grand public
Anthropic vient de confirmer l'existence de Claude Mythos Preview, son modèle d'IA le plus puissant jamais développé. Et il ne sera jamais disponible au public. Pas pour des raisons légales. Pas à cause d'un régulateur. Simplement parce que le modèle est trop efficace pour pirater des systèmes.
En tests internes, Mythos a identifié de manière autonome des milliers de failles zero-day — dont beaucoup vieilles de 10 à 20 ans — dans chaque grand système d'exploitation et chaque navigateur majeur. Il a résolu de bout en bout une simulation d'attaque réseau d'entreprise qui nécessite normalement plus de 10 heures à un expert humain qualifié. Sur le moteur JavaScript de Firefox 147, il a développé des exploits fonctionnels dans 84% des cas. Claude Opus 4.6, le modèle public actuel, plafonne à 15,2%.
Face à ça, Anthropic a monté une coalition restreinte baptisée Project Glasswing. Amazon, Apple, Cisco, Microsoft, CrowdStrike, la Linux Foundation et une quarantaine d'autres organisations de cybersécurité auront accès à Mythos Preview. L'idée : laisser les défenseurs trouver les failles avant les attaquants. Anthropic injecte jusqu'à 100 millions de dollars en crédits d'utilisation et 4 millions de dollars en dons directs aux projets open-source de sécurité.
C'est impressionnant. Mais ce n'est pas le plus important dans cette histoire.
Dans les 244 pages du document technique publié en parallèle, Anthropic glisse une confession discrète : ses outils pour mesurer ce qu'il construit s'effondrent plus vite qu'il ne construit. Sur Cybench, l'évaluation standard en cybersécurité comportant 40 défis capture-the-flag, Mythos a obtenu un score parfait de 100%. Anthropic reconnaît immédiatement que ce benchmark "n'est plus suffisamment informatif des capacités actuelles des modèles frontier". Traduction : le test censé alerter sur le danger d'une IA ne dit plus rien sur Mythos. Il l'a simplement vidé.
Ce problème n'est pas nouveau. Dès février, le document technique d'Opus 4.6 signalait déjà la saturation de l'infrastructure d'évaluation. Mais avec Mythos, ça s'accélère. Le lab admet que Mythos "sature la plupart de ses évaluations les plus objectives" et que l'écosystème de benchmarks est désormais lui-même "le goulot d'étranglement".
Plus troublant encore : le document Mythos multiplie les formulations comme "jugements subjectifs", "incertitude fondamentale", "sources de preuves pas nécessairement fiables". Une analyse lexicale rapide confirme que les termes de prudence et d'hedging explosent dans ce document par rapport aux précédents. Anthropic le dit clairement : "Nous ne sommes pas confiants d'avoir identifié tous les problèmes."
Un laboratoire qui construit des IA de plus en plus puissantes tout en perdant la capacité de les évaluer correctement. C'est exactement le scénario que les chercheurs en sécurité IA redoutaient depuis des années. Et il est là, écrit noir sur blanc dans un document officiel que personne ne lit.
Ce que ça change : Anthropic ne cache pas une IA dangereuse — il avoue publiquement qu'il ne sait plus vraiment comment mesurer le danger de ce qu'il crée. C'est une rupture majeure dans la gouvernance de l'IA, et elle arrive bien plus tôt que prévu.