Bravo, OpenAI vient de dégainer ses nouvelles fonctionnalités vocales dans l’API. Pour le service client, nous dit-on. Mais aussi pour « l’éducation », « les créateurs » et autres licornes marketing. Traduction : ils ont trouvé un nouveau moyen de vous faire cracher des tokens pendant que vos clients se font gazouiller par une IA qui ne comprend rien à leur frustration.
La voix de son maître (et de son comptable)
Depuis le 24 octobre 2024, les développeurs peuvent intégrer du speech-to-speech dans leurs apps. OpenAI promet des conversations « naturelles », « émotionnelles », « contextuelles ». En réalité, c’est un copier-coller des mêmes modèles de langage, avec un pipeline audio bricolé. Le vrai gagnant ? Le prix au token, évidemment. Chaque mot parlé coûte plus cher qu’un SMS de 1998. Et qui paie ? Vous. Le client final ? Il se prendra un répondeur IA qui dit « je comprends votre mécontentement » sans jamais résoudre le problème.
OpenAI cite Kroger et Uber comme bêta-testeurs. Deux entreprises dont le service client est déjà un enfer. Ajouter une voix synthétique ne rendra pas vos colis perdus moins perdus. Mais ça permet à OpenAI de facturer des millions de minutes de conversation chaque mois. Beau deal : la déshumanisation des call centers devient une ligne de revenus.
Éducation ou dopage aux bots ?
Le communiqué de presse affirme que la voix peut servir dans « l’éducation ». Oui, pour des quiz interactifs. Mais soyons sérieux : l’éducation n’est qu’un prétexte pour conditionner les enfants dès le berceau à parler à des machines. Pendant ce temps, les vrais profs sont sous-payés et remplacés par des chatbots qui ne savent pas gérer les crises ni les besoins émotionnels. Une étude de l’Éducation nationale (2023) montre que 70 % des élèves préfèrent un humain pour les matières complexes. Mais OpenAI s’en fout : il vend du volume, pas de la pédagogie.
Et les « créateurs » ? Ah, la grande promesse du contenu généré par IA. Des podcasts sans animateurs, des livres audio sans auteurs, des tutoriels sans expertise. OpenAI vous offre les outils pour remplacer votre propre travail par une copie baveuse de ce que vous auriez fait. Félicitations : vous venez de vous mettre au chômage pour le plaisir de Sam Altman.
Le vrai coût de la voix
Les API vocales d’OpenAI sont vendues comme une révolution. En réalité, c’est une extension du pipeline de monétisation : 0,06 $ par minute pour l’audio entrant, 0,12 $ par minute pour l’audio sortant. Multipliez par des millions d’appels, et vous avez une machine à cash. Pendant ce temps, les concurrents (Google, ElevenLabs) proposent des solutions moins chères ou open-source. Mais OpenAI mise sur sa marque et son verrouillage écosystème. « Notre modèle est le meilleur », clament-ils. Les benchmarks (any) montrent une marge infime sur la qualité perçue, mais un gouffre sur le prix.
Alors oui, cette fonctionnalité est « pratique » pour ceux qui veulent déployer vite. Mais derrière la voix douce de l’IA se cache un appel à la soumission technologique. Vous n’êtes pas un client, vous êtes un fournisseur de données vocales qui alimente le prochain GPT-5. Et vous payez pour ça.
Susanoo News vous conseille : faites vous-même. Prenez Whisper (open-source) + Coqui TTS + un petit serveur Python. Vous aurez une voix moins parfaite mais plus libre. Et vous garderez le contrôle de votre entreprise. OpenAI n’aime pas ça ? Tant mieux.