L'IA super-intelligente, le gardien humain débile
Chez Anthropic, on passe son temps à aligner des modèles de langage sur des valeurs humaines pour éviter l'apocalypse. Le seul problème ? Ce sont les humains qui font fuir les données. Deux incidents majeurs en sept jours, pas à cause d'un hack sophistiqué, mais grâce à la bonne vieille négligence d'un employé. La première fuite, un fichier de configuration sensible laissé en libre accès. La seconde, des identifiants exposés dans du code public. Chaque fois, le coupable porte un badge, pas un algorithme.
Le paradoxe de la sécurité éthique
La startup, valorisée à plus de 15 milliards de dollars, consacre des ressources colossales à empêcher Claude de dire une inconvenance. Pendant ce temps, les processus basiques de sécurité informatique — ceux qui empêchent les concurrents de tout piller — semblent être une réflexion après-coup. On bâtit des garde-fous contre une superintelligence hypothétique tout en laissant la porte du serveur grande ouverte. La priorité est claire : il faut rassurer les investisseurs sur les risques lointains, quitte à ignorer ceux qui sont dans la salle de repos.
Qui protège les gardiens ?
Anthropic se présente comme le chevalier blanc, celui qui va développer l'IA de manière 'responsable'. Ses principes fondateurs sont beaux sur le papier. Mais la gouvernance éthique s'arrête-t-elle aux poids et biais du modèle ? Quand le principal vecteur de risque est l'équipe elle-même, où sont les protocoles stricts, les audits internes, la culture de la sécurité ? On dirait qu'ils ont externalisé toute leur paranoïa sur la machine, en se croyant immunisés par leur bonne intention.
Leçon à 15 milliards
L'épisode est un rappel brutal : la chaîne la plus faible n'est pas dans l'architecture du modèle, mais devant le clavier. Vous pouvez dépenser des millions en 'red teaming' votre IA, si votre ingénieur laisse traîner un token d'API sur GitHub, le jeu est fini. La Silicon Valley adore les solutions high-tech à des problèmes complexes. Parfois, le problème est simple : la discipline humaine. Et ça, aucune fine-tuning ne peut le corriger. Anthropic vient de l'apprendre à ses dépens. Deux fois.