
Anthropic a placé environ six ingénieurs au sein de la National Security Agency (NSA) pour aider à déployer Mythos, son modèle d'IA le plus performant, pour des opérations cyber offensives, a rapporté le Financial Times jeudi.
Ces ingénieurs sont du personnel déployé sur le terrain, personnalisant le modèle pour des applications spécifiques. Une source a déclaré au FT qu'il pourrait être utile pour infiltrer des réseaux dans des pays comme la Chine et l'Iran.
Il n'est pas confirmé si ces ingénieurs sont impliqués dans des opérations actives. Ce qui est confirmé : Mythos est le même modèle qu'Anthropic a refusé de rendre public, invoquant des risques d'utilisation abusive. L'entreprise l'a limité à des partenaires vérifiés via Project Glasswing, une coalition restreinte incluant Microsoft, Apple et Amazon.
Anthropic poursuit également le Pentagone. Fin février, le secrétaire à la Défense, Pete Hegseth, a désigné l'entreprise comme un risque pour la chaîne d'approvisionnement – une étiquette historiquement réservée aux adversaires étrangers comme Huawei – après l'effondrement d'un contrat de 200 millions de dollars. Le point de désaccord : Anthropic a refusé de laisser le DoD utiliser Claude pour des armes entièrement autonomes ou une surveillance de masse domestique. Le contrat avec la NSA était exempté de cette interdiction.
Un juge californien a bloqué la mise sur liste noire, la considérant comme une apparente mesure de représailles contre le Premier Amendement. Une cour d'appel de D.C. a rejeté la demande d'Anthropic de l'arrêter pendant le déroulement du litige. La NSA a continué à utiliser Mythos tout au long de cette période, selon les rapports du FT.
Comment arrêter l'IA qui construit l'IA
Le même jour où l'histoire de la NSA a éclaté, l'institut de recherche interne d'Anthropic a publié "When AI Builds Itself" (Quand l'IA se construit elle-même), un aperçu des progrès de Claude en matière d'automatisation de son propre développement. Dans ce document, l'entreprise plaide essentiellement pour un moratoire mondial dans la course aux armements de l'IA – et l'a même comparé aux traités nucléaires de l'ère de la Guerre Froide conclus entre les États-Unis et la Russie.
Pour comprendre pourquoi, l'entreprise a fourni ce contexte :
Claude rédige désormais plus de 80 % du code intégré à la base de code de production d'Anthropic – contre un faible pourcentage à un chiffre avant le lancement de Claude Code début 2025. Les ingénieurs livrent environ huit fois plus de code par jour qu'en 2024.
Les auteurs du rapport – Marina Favaro, responsable de l'Anthropic Institute, et Jack Clark, co-fondateur – soutiennent que cette trajectoire mène à ce qu'ils appellent l'auto-amélioration récursive : des systèmes d'IA qui conçoivent, construisent et entraînent de manière autonome leurs propres successeurs, avec un rôle humain de plus en plus réduit à chaque étape.
Dans une représentation visuelle, les chercheurs présentent une chronologie où la première façon d'utiliser l'IA au travail est que les humains guident l'ordinateur pour obtenir un résultat, avec des automatisations croissantes aboutissant à des agents d'IA guidant des sous-agents jusqu'à ce que le résultat soit atteint, sans aucune intervention humaine.
Le point de données le plus frappant qu'ils citent : En avril, des agents Claude ont été confrontés à un problème ouvert de sécurité de l'IA – à savoir si un modèle plus faible peut superviser de manière fiable un modèle plus fort – et ont été laissés à le résoudre. Deux chercheurs humains ont récupéré en environ une semaine 23 % de l'écart de performance entre les modèles. Les agents ont récupéré 97 %, sur plus de 800 heures de calcul cumulées. Les humains ont posé la question. Les agents ont conçu chaque expérience. C'est le premier cas publié où Claude exerce un jugement de recherche, et pas seulement exécute des tâches spécifiées par quelqu'un d'autre.
C'est la limite qu'Anthropic craint de franchir. Une fois que l'IA choisit quelles expériences valent la peine d'être menées – et ne se contente pas de les exécuter – les humains perdent le dernier rôle significatif dans la boucle de développement. De légers désalignements visibles dans les modèles actuels pourraient s'aggraver au fil des générations auto-améliorantes jusqu'à ce que personne ne puisse les corriger.
La solution qu'ils proposent est une pause mondiale vérifiable – plusieurs laboratoires de pointe s'arrêtant simultanément, avec une vérification indépendante que tout le monde s'est réellement arrêté. Anthropic a déclaré qu'elle s'y joindrait. Un ralentissement unilatéral, reconnaissent-ils, ne ferait que donner l'avantage à ceux qui continueraient.
Nous avons déjà vu ce film. Les laboratoires qui construisent l'IA sont les mêmes qui avertissent de sa dangerosité. Cependant, l'IA est l'entreprise la plus rentable de la décennie, donc personne ne veut s'arrêter – pas même ceux qui mettent en garde contre l'IA.
En 2023, plus d'une centaine de personnalités éminentes de la communauté de la recherche en IA ont signé une lettre ouverte appelant à un effort mondial pour atténuer le risque d'extinction intrinsèquement lié au développement de l'IA. Quelques mois auparavant, une autre lettre ouverte exigeait qu'OpenAI suspende les avancées sur ChatGPT en raison de sa nature dangereuse.
Personne ne s'est arrêté après la lettre ouverte de 2023. OpenAI ne l'a pas fait. Anthropic non plus. La date limite fixée par le Pentagone pour retirer Claude de ses systèmes est en août, à peu près au moment où l'introduction en bourse d'Anthropic devrait rendre ses finances publiques.