La Silicon Valley a trouvé son nouveau fétiche : le benchmark. Ces chiffres alignés comme des perles sur un collier de communication servent à masquer une vérité crue : personne ne sait vraiment mesurer l’« intelligence » d’une machine, alors on se rabat sur la comparaison avec l’humain, ce vieux réflexe anthropocentrique aussi pratique que fallacieux.
Le miroir aux alouettes de la « supériorité »
On vous serine que l’IA bat l’humain aux échecs, au Go, au test de mathématiques de l’Olympiade. Performance spectaculaire, utilité nulle. Ces victoires en terrain clos, sur des règles figées, prouvent une chose : la machine excelle à optimiser une fonction dans un espace contraint. C’est de l’algèbre, pas de la cognition. Le vrai test, ce serait de lui demander de comprendre les règles tacites d’une réunion Zoom ou l’absurdité d’un meme. Elle échouerait. Mais ça, on ne le mesure pas.
Qui profite du cirque des scores ?
Regardez qui brandit ces benchmarks comme des trophées : les labos de recherche en quête de financements (OpenAI, Google DeepMind) et les vendeurs de puces (Nvidia). Un score élevé sur MMLU ou GPQA justifie un nouveau tour de table à plusieurs milliards ou la vente d’une nouvelle génération de GPU. C’est un jeu d’influence, pas de science. Les benchmarks sont devenus la monnaie d’échange d’un écosystème en pleine bulle spéculative.
L’arnaque du « test standardisé »
Les modèles sont désormais entraînés sur les jeux de données des benchmarks. C’est comme donner les réponses du bac à l’avance. Le résultat ? Une surperformance artificielle qui s’effondre dès qu’on sort du cadre. Et que mesure-t-on, au juste ? La capacité à régurgiter du texte du web ? La corrélation n’est pas la causalité, et un score n’est pas une compréhension. Pendant ce temps, les vrais problèmes — les biais systémiques, la consommation énergétique monstrueuse, l’opacité des décisions — restent dans l’angle mort des métriques.
Ce qu’on devrait mesurer (mais qu’on ne veut pas voir)
Arrêtons la comédie. Il ne faut pas un nouveau benchmark, mais un changement de paradigme. Mesurons :
1. Le coût écologique par « insight » utile. Combien de joules pour une réponse pertinente ?
2. La robustesse hors-distribution. Que fait le modèle face à une situation inédite, non répertoriée dans ses données d’entraînement ?
3. L’impact systémique. Quand on déploie ce modèle dans un hôpital, une préfecture, une bourse, quels effets secondaires émergent ?
4. La traçabilité des décisions. Pouvez-vous expliquer, vraiment, pourquoi l’IA a pris ce chemin ?
Ces métriques-là, personne ne les publie. Parce qu’elles racontent une histoire moins glorieuse : celle d’une technologie vorace, fragile, et profondément incontrôlée, qu’on continue d’évaluer avec les outils intellectuels du siècle dernier.