Comment la Chatbot Arena est devenue le TripAdvisor de l’IA

Comment la Chatbot Arena est devenue le TripAdvisor de l’IA


Plus rapide, plus efficace, capable de résoudre « un problème des Olympiades internationales de mathématiques en une fois », s’étonne un utilisateur, ou de créer un clone de Flappy Bird, rapporte un autre, ce mystérieux chatbot fait sensation sur cette plateforme qui permet de tester et comparer les IA en les confrontant sur une même requête. L’ambition de Wei-Lin Chiang et Anastasios Angelopoulos, qui n’ont à l’époque pas encore validé leur doctorat, n’a pourtant jamais été de pondre un classement que les spécialistes de l’IA suivent comme le box-office, mais de rendre « les grands modèles d’IA accessibles à tous en co-développant des modèles ouverts, des jeux de données, des systèmes et des outils d’évaluation« , peut-on lire sur la page de présentation de LMSYS, l’organisme à but-non lucratif créé, à l’époque, pour chapeauter le projet. Ce n’est qu’en constatant les limites des benchmarks, ces moyens d’évaluation académiques et standardisés, censés mesurer les performances des modèles d’IA sur des tâches, comme la résolution de problèmes mathématiques ou la compréhension de texte, que les deux camarades de chambre entrevoient l’intérêt de développer un classement alimenté par des contributions humaines.

Author: Étienne Caillebotte


Published at: 2025-06-30 08:00:34

Still want to read the full version? Full article