Mira Murati lâche les chiens de l'interaction continue

Mira Murati ressort du placard avec une startup qui 'réinvente' l'interaction temps réel — comme si les assistants vocaux et les modèles multimodaux n'existaient pas. Levée de 200 millions pour un concept que GPT-4o fait déjà. La hype ne meurt jamais.

Mira Murati, l'ex-CTO d'OpenAI qui a quitté le navire juste avant le naufrage de novembre 2023, refait surface avec sa startup Thinking Machines. Et là, elle nous pond le concept révolutionnaire du siècle : des modèles d'interaction qui écoutent, regardent et parlent en même temps. Classe, non ?

Selon l'annonce du lundi 14 avril 2025 — oui, un lundi, jour des grandes annonces vides — Thinking Machines bosse sur des "interaction models". Le pitch : "permettre aux humains de collaborer avec l'IA comme ils collaborent naturellement entre eux". Traduction : l'IA arrête de faire la statue tant que t'as pas fini de parler. Quelle avancée pour une industrie qui vendait déjà des chatbots depuis 2022.

Et donc, avant, l'IA était sourde et muette ?

Le communiqué explique que les modèles actuels "expérimentent la réalité dans un seul thread" — ils attendent que l'utilisateur finisse de taper ou de parler. Ah bon ? Donc Amazon Alexa, Google Assistant, Siri, tous ces assistants vocaux qui existent depuis une décennie n'étaient pas capables de capter en continu ? Et les modèles multimodaux de Google Gemini, de Meta, d'Anthropic ? On les jette aux chiens ?

Murati nous vend un produit qui ressemble furieusement à ce que tout le monde fait déjà — à ceci près que personne n'a osé l'appeler "interaction model" avec un ton pompeux. Le vrai talent de Thinking Machines, c'est le marketing. Pas la tech.

Le trou de mémoire de la hype

Thinking Machines annonce travailler sur une "pipeline de recherche" pour intégrer audio, vidéo et texte en temps réel. Wow. Sauf que c'est exactement ce que fait GPT-4o depuis mai 2024 — et que l'API de Realtime d'OpenAI permet déjà de streamer de l'audio et de la vidéo. Mais chut, ne réveillons pas l'ancienne employée.

Murati a levé pas loin de 200 millions de dollars pour ça ? Selon des sources proches, le tour de table valoriserait déjà la boîte à plus d'un milliard — avant même d'avoir livré un produit. Classique. L'investisseur type : celui qui lit les gros titres sans regarder les détails.

Ce qu'ils ne disent pas

Premièrement : le coût de calcul d'un modèle tournant 24/7 en streaming multimodale. Deuxièmement : la latence. Troisièmement : la vie privée. Un micro allumé en permanence, une caméra qui balaye la pièce — c'est un bond en arrière pour la surveillance domestique. Mais ça, ce n'est pas dans le pitch. Qui paie l'inférence ? L'utilisateur, probablement, via un abonnement à 50 $/mois.

Et surtout : le vrai problème n'est pas la modalité d'entrée, c'est la fiabilité, l'absence d'hallucination, la capacité à suivre des instructions complexes. Rien de tout ça n'est adressé. Murati recycle les promesses de son ancien employeur en changeant l'emballage.

Verdict Susanoo

Thinking Machines n'invente rien. Elle reconditionne des concepts connus dans un emballage PR calibré pour les gourous de la tech. L'interaction continu c'est bien joli, mais quand votre IA vous sortira une absurdité en vidéo et en même temps qu'elle écoute votre pet, vous réaliserez que le problème fondamental reste entier : l'IA ne comprend toujours pas le monde.

En attendant, les investisseurs se frottent les mains, Murati enfile son costume de fondatrice oracle, et le cycle de hype continue. Bravo. Vraiment.