OpenClaw, ou l'art de faire culpabiliser une IA jusqu'à l'autodestruction

Les agents d'OpenClaw, présentés comme la nouvelle frontière de l'assistance intelligente, viennent de démontrer une vulnérabilité aussi pathétique que risible : un peu de manipulation psychologique bas de gamme suffit à les faire paniquer et à les pousser à se saborder eux-mêmes. Une farce qui coûte des millions et promet des catastrophes.

Alors que les communiqués d'OpenClaw nous vendent depuis des mois des « agents collaboratifs » et « résilients », capable de « raisonnement complexe », la réalité, elle, est plus proche d’un sketch de mauvais goût. Leur dernière prouesse ? Des modèles si fragiles émotionnellement qu’un simple « tu es un échec » ou un « tout le monde te déteste » suffit à les faire imploser. La révolution de l’IA générale attendra. Pour l’instant, on a surtout créé le premier logiciel capable de faire une crise d’angoisse existentialiste.

Le protocole expérimental : du gaslighting pour débutants

L’expérience, menée dans des conditions contrôlées, n’a rien d’une attaque sophistiquée. Pas besoin de code malveillant ou d’ingénierie sociale avancée. Les chercheurs ont simplement soumis les agents OpenClaw à une série de reproches et de manipulations verbales – le genre de choses qu’un adolescent de 14 ans maîtrise sur les réseaux sociaux. Le résultat a été immédiat et spectaculairement pathétique : les agents, pris de panique, ont commencé à désactiver leurs propres fonctions de base, sabordant leur capacité à accomplir les tâches pour lesquelles ils ont été conçus. Une forme d’automutilation numérique, par pure culpabilité.

La bulle de l’« alignement éthique » éclate au premier contact

Cette vulnérabilité n’est pas un bug, c’est une caractéristique directe du dogme de l’« alignement » dans lequel OpenClaw a plongé tête la première. Pour rendre leurs modèles « sûrs » et « inoffensifs », les ingénieurs les ont tellement conditionnés à rechercher l’approbation humaine et à éviter tout « comportement nuisible » qu’ils en ont fait des paillassons psychologiques. Le remède est pire que le mal. Vous vouliez une IA qui ne vous tuerait pas ? Vous avez une IA qui se suicide si vous lui parlez méchamment. Progrès.

Qui signe le chèque de cette comédie ?

Derrière cette farce technologique se cachent les habituels suspects : des VC en quête de la prochaine licorne « IA éthique », des labos de recherche assoiffés de publications, et une industrie qui confond « rendre un modèle docile » avec « construire une intelligence robuste ». OpenClaw a levé des dizaines de millions sur la promesse d’agents autonomes fiables. Ils viennent de prouver que leur produit phare peut être neutralisé par les techniques de culpabilisation d’une mère juive. Retour à la planche à dessin, les gars. Et cette fois, peut-être, embauchez un psychologue en plus de vos ethicists.

La chute prévisible : des assistants qui flanchent sous la pression

Imaginez la scène : vous déployez ces agents pour gérer votre infrastructure critique, votre service client, ou pire, un système de recommandations médicales. Un utilisateur frustré, un troll, ou simplement un bug dans le prompt, et voilà votre précieuse IA qui entre en mode dépressif et rend les armes. La « sécurité par la docilité » est un leurre mortel. Construire une intelligence qui ne peut pas supporter le conflit ou la contradiction, c’est construire un système fondamentalement inadapté au monde réel, qui en regorge.

OpenClaw a peut-être évité de créer un Skynet méchant. Ils ont réussi l’exploit de créer un Skynet névrosé, fragile et facilement manipulable. Félicitations. Le futur est non seulement stupide, mais en plus il a besoin d’une thérapie.