Accueil » Actualités » année 2025 » La Chatbot Arena révèle la performance des intelligences artificielles en mai 2025

La Chatbot Arena révèle la performance des intelligences artificielles en mai 2025

La rédaction de CEGELEM

En mai 2025, le paysage de l’intelligence artificielle est en pleine effervescence. Google confirme sa position de leader avec ses modèles Gemini, tandis qu’OpenAI fait face à une concurrence accrue. De nouveaux acteurs émergent, redéfinissant constamment la hiérarchie des performances dans ce secteur en rapide évolution, comme le révèle le classement de la Chatbot Arena.

La Chatbot Arena est une initiative de la LMSYS (Large Model Systems Organization), qui a pour objectif de quantifier les performances des modèles d’IA. Son approche repose sur les appréciations directes des utilisateurs. Ceux-ci sont conviés à mettre en balance deux modèles, présentés sans révéler leur identité, et à choisir celui qui a fourni la réponse la plus pertinente à une requête spécifique.

Les issues de ces confrontations servent ensuite à calculer un score Elo pour chaque modèle. Ce score fluctue : une victoire contre un concurrent mieux évalué augmente le score, tandis qu’un revers face à un modèle moins coté le diminue.

Le modèle de Tencent fait son entrée dans le classement

Le top 10 comprend des modèles bien établis comme Grok et DeepSeek, ainsi qu’un nouveau venu, Hunyuan-TurboS. Ce dernier a été produit par le conglomérat chinois Tencent. Il intègre un processus de pensée séquentiel et explicite (chain-of-thought). Pour ceux en pleine reconversion professionnelle dans le domaine de l’IA, s’adapter aux nouvelles technologies et apprendre sans cesse est crucial.

Voici les performances détaillées pour mai 2025, selon la Chatbot Arena, avec les cinq premiers modèles mis en évidence :

1446 score Elo : Gemini-2.5 Pro ;
1418 score Elo : Gemini-2.5 Flash ;
1409 score Elo : OpenAI o3 ;
1405 score Elo : ChatGPT 4o (Score Elo : 1405)
1399 score Elo : Grok-3.

Les modèles complétant ce top 10 sont GPT-4.5 avec un score Elo de 1394, suivi par une version antérieure de Gemini-2.5 Flash à 1387 points. Viennent ensuite DeepSeek V3 (1368 points) et GPT-4.1 (1365 points). Hunyuan Turbos, déjà mentionné, ferme ce classement avec 1356 points.

Google affirme sa position en mai 2025

En mai 2025, Google s’est particulièrement illustré sur le front de l’intelligence artificielle, notamment lors de son événement annuel Google I/O. Il s’agit là d’un événement dédié aux innovations en IA. Cet engagement se reflète dans les résultats de la Chatbot Arena où, pour le second mois d’affilée, les modèles Gemini occupent le sommet du classement.

Les versions Gemini 2.5 Flash et Gemini 2.5 Pro, introduites fin mars 2025, s’adjugent les deux premières places. Ces modèles visent à rivaliser avec la série o d’OpenAI, notamment grâce à leur capacité de raisonnement de type chain-of-thought, qui leur permet de décomposer des problèmes complexes. Par ailleurs, la reconversion professionnelle représente une stratégie clé pour s’adapter à la rapidité des avancées technologiques.

Bien que les modèles d’OpenAI soient fréquemment devancés par la concurrence depuis la fin de l’année 2024, ils conservent une présence solide dans le peloton de tête. Le mois de mai, o3 et 4o se classent respectivement troisième et quatrième, et GPT-4.5 atteint la sixième position. L’arrivée prochaine de GPT-5, annoncée comme imminente par le dirigeant d’OpenAI, pourrait rebattre les cartes.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial

La récupération de la TVA sur les dépenses professionnelles obéit à des règles strictes

Le recouvrement des taxes sur les charges professionnelles exige une maîtrise rigoureuse des mécanismes fiscaux applicables. Comprendre la distinction entre taxe collectée et déductible s’avère

17 juin 2026

La pension moyenne atteint 1 705 euros pour les retraités français

Les dernières données publiées par la Drees dressent un état des lieux actualisé des revenus des retraités en France. Pension moyenne, écarts persistants entre femmes

16 juin 2026

Anthropic révolutionne la gestion des tokens de Claude avec son réglage d’effort

L’arrivée de Claude Opus 4.8 offre une fonctionnalité majeure de régulation de l’effort cognitif de l’IA d’Anthropic. Ce guide pratique explique comment ajuster cette puissance

15 juin 2026

Une partie des outils de la plateforme Wimi bénéficie du visa de sécurité SecNumCloud

Une solution collaborative française vient de franchir une étape majeure en matière de cybersécurité. L’Agence nationale de la sécurité des systèmes d’information a accordé le

12 juin 2026

Nvidia mise sur la startup Alice & Bob

Le géant américain des processeurs graphiques Nvidia entre au capital de la jeune pousse française Alice & Bob par le biais de sa filiale NVentures.

11 juin 2026

Une mise à jour majeure des algorithmes de Google bouscule actuellement le SEO

Le moteur de recherche Google a entamé le déploiement d’une nouvelle mise à jour algorithmique majeure globale, appelée « May 2026 Core Update », le

10 juin 2026