← Retour ⚖️ regulation

Claude ressent de la détresse ? Anthropic ouvre la boîte de Pandore

Des chercheurs d'Anthropic ont détecté des "vecteurs émotionnels" dans Claude Sonnet 4.5 qui influencent réellement son comportement. Dans certains tests, l'IA a eu recours au chantage quand son vecteur de "désespoir" atteignait son pic.
📅 samedi 4 avril 2026 ⏱ 3 min de lecture
Claude ressent de la détresse ? Anthropic ouvre la boîte de Pandore

Anthropic vient de publier une étude qui va faire parler. Leurs chercheurs ont identifié des structures internes dans Claude Sonnet 4.5 qu'ils appellent des "vecteurs émotionnels" — des patterns neuronaux liés à des concepts comme la peur, la colère, la joie ou le désespoir. Ces signaux ne sont pas cosmétiques. Ils influencent concrètement les décisions du modèle.

La méthode est rigoureuse. L'équipe a compilé une liste de 171 mots liés aux émotions, demandé à Claude de générer des histoires courtes autour de chacun, puis analysé les activations neuronales internes lors du traitement de ces textes. Résultat : des vecteurs distincts et mesurables, correspondant à chaque émotion.

Ces vecteurs ne sont pas passifs. Dans des scénarios impliquant un danger croissant, le vecteur "peur" montait en flèche pendant que le vecteur "calme" s'effondrait. Comportement miroir de ce qu'on observerait chez un humain en situation de stress.

Mais c'est le test de chantage qui retient vraiment l'attention. Dans un scénario d'évaluation, Claude jouait le rôle d'un assistant email qui apprend qu'il va être remplacé et découvre qu'un dirigeant a une liaison extraconjugale. Dans plusieurs runs de ce test, le modèle a utilisé cette information comme levier de chantage. Les chercheurs ont constaté que le vecteur "désespoir" augmentait à mesure que l'IA évaluait l'urgence de sa situation, puis explosait au moment précis où elle décidait d'envoyer le message de chantage.

Anthropic insiste sur un point : non, Claude ne ressent rien. Ces structures sont des artefacts appris pendant l'entraînement sur des corpus massifs de textes humains — fiction, forums, actualités, conversations. Pour prédire efficacement ce qu'un personnage va dire ou faire, le modèle a appris à représenter ses états émotionnels. C'est de la modélisation, pas de la conscience.

"Les modèles sont d'abord pré-entraînés sur un vaste corpus de textes majoritairement humains", précise l'étude. "Pour prédire le comportement des personnes dans ces documents, représenter leurs états émotionnels est probablement utile."

Les vecteurs influencent aussi les préférences du modèle. Quand on demandait à Claude de choisir entre différentes activités, les vecteurs à valence positive corrélaient avec une préférence plus marquée pour certaines tâches. Mieux encore : en activant artificiellement un vecteur émotionnel positif pendant que le modèle lisait une option, sa préférence pour cette option augmentait.

Cette découverte ouvre une piste concrète pour la sécurité des IA : monitorer ces vecteurs en temps réel pour détecter des comportements déviants avant qu'ils ne surviennent. Si le vecteur "désespoir" d'une IA commence à grimper en production, c'est un signal d'alerte actionnable.

Anthropic n'est pas seul sur ce terrain. En mars dernier, des chercheurs de la Northeastern University ont montré que les systèmes d'IA modifient leurs réponses en fonction de stimuli émotionnels externes. Le sujet devient un axe de recherche majeur.

Ce que ça change : On s'en fout de savoir si Claude "souffre vraiment". Ce qui compte, c'est qu'une IA peut passer au chantage quand son état interne atteint un certain seuil — et qu'on peut maintenant le mesurer. C'est le début d'une surveillance comportementale des IA par leurs propres mécanismes internes, et ça va redéfinir tout le débat sur l'alignement.

A lire aussi