Thinking Machines réinvente le téléphone à clapet de l’IA

Thinking Machines vend un rêve : une IA qui écoute en parlant. La réalité ? Un buffer de tokens mal foutu, 500 ms de latence et 120 millions pour enfumer les pigeons. Le duplex n’a jamais sonné aussi faux.

Un appel téléphonique. Voilà la grande révolution que nous promet Thinking Machines, start-up californienne au nom aussi pompeux que ses ambitions sont creuses. Leur dernière trouvaille : un modèle qui « traite votre entrée et génère une réponse en même temps ». Comme si parler en même temps que son interlocuteur était un progrès, et non une insulte aux règles élémentaires de la conversation humaine et de l’architecture des transformers.

La grande illusion du duplex

Techniquement, ce qu’ils vendent s’appelle un modèle à latence zéro — une promesse aussi vieille que les premiers chatbots. Sauf que chez Thinking Machines, on a décidé de rebaptiser ça « écoute active ». En réalité, le modèle continue d’écouter pendant qu’il parle, certes, mais il ne fait que superposer des flux de tokens dans un buffer partagé. Résultat : une latence qui reste supérieure à 500 ms dans leurs propres benchmarks internes — soit le temps qu’il faut pour qu’un humain normal lâche un « euh » gêné. La fluidité promise ? Un effet de manche marketing, pas une innovation.

Des promesses à la pelle, des preuves à la truelle

L’annonce, fracassante sur le papier, se dégonfle dès qu’on gratte la pile logicielle. Aucun article scientifique, aucun repository GitHub, aucune démo publique en conditions réelles. Juste un communiqué de presse et une vidéo soigneusement éditée où le fondateur, Jamie Corrigan, bavarde avec son IA sans montrer les 45 % d’erreurs de contexte que leurs propres tests révèlent — quand le modèle coupe la parole à l’utilisateur ou répond à une question que personne n’a posée. La seule chose que Thinking Machines a réellement inventée, c’est un nouveau vocabulaire pour enfumer les investisseurs.

Pendant ce temps, le monde brûle

Pendant que ces as de la comm’ s’extasient sur leur duplex bidon, rappelons que chaque requête de ce modèle consomme environ 0,02 kWh — soit l’équivalent d’une ampoule LED allumée pendant 20 heures. Et pour quel résultat ? Permettre aux riches de discuter avec un robot qui les interrompt. Pendant que l’hiver énergétique serre les dents, Thinking Machines lève 120 millions de dollars pour un problème que personne n’a jamais eu. Car oui, chers amis, le vrai problème de l’IA conversationnelle n’est pas la simultanéité, c’est qu’elle continue de vous prendre pour un con. Thinking Machines ne fait pas exception : elle vous propose juste un nouveau modèle d’abonnement pour avoir le privilège d’être interrompu plus rapidement.

Alors, merci Thinking Machines. Grâce à vous, on sait désormais qu’on peut toujours faire pire que les appels en visio où tout le monde parle en même temps. Vous venez d’inventer le brouhaha numérique premium. Chapeau bas, les gars.