Claude 3.5 Sonnet d’Anthropic s’avise à redéfinir les standards de l’Intelligence artificielle

Table des matières

Pour redéfinir les standards de l’Intelligence artificielle, Anthropic introduit son nouveau modèle Claude 3.5 Sonnet avec une nouvelle fonctionnalité Artefacts. Les avancées de Claude 3.5 Sonnet tentent ainsi de rivaliser avec les performances des différents modèles. L’entreprise cherche surtout à enrichir l’expérience utilisateur en permettant des interactions plus intuitives et productives avec l’IA.

Avec l’évolution de la technologie, comparer les modèles d’IA devient essentiel pour définir leur utilité et leur efficacité. La société américaine Anthropic a depuis peu dévoilé son nouveau modèle Claude 3.5 Sonnet, un type d’IA. Révolutionnaire, ce modèle se distingue par sa compréhension des subtilités, incluant les instructions complexes et même l’humour. L’entreprise Anthropic spécifie également que Claude 3.5 Sonnet reste deux fois plus rapide que son autre modèle Claude 3 Opus. Par ailleurs, cette nouvelle version surpasse à ce qu’il paraît certains concurrents, comme GPT-4o et Gemini 1.5 Pro dans certains domaines.

Une comparaison des performances des modèles d’IA sur diverses tâches

Suite à une comparaison des performances des modèles IA par rapport à des tâches, Anthropic présente Claude 3.5 Sonnet comme étant la plus performante. Parmi les testés, l’on peut citer : Claude 3.5 Sonnet, Claude 3 Opus, Llama-400b (early snapshot), Gemini 1.5 Pro, GPT-4o. Pour les comparer, les tâches se concentrent surtout sur :

  • Le raisonnement de niveau universitaire ;
  • Les connaissances de niveau universitaire ;
  • L’évaluation des compétences en programmation ;
  • Les mathématiques multilingues ;
  • Le raisonnement sur des textes ;
  • Les évaluations mixtes ;
  • La résolution de problèmes mathématiques ;
  • Les mathématiques de niveau scolaire.

Pour la première tâche sur le raisonnement de niveau universitaire, Claude 3.5 Sonnet a obtenu un score de 59,4 % en « 0-shot CoT ». Ceci montre qu’il peut raisonner sans avoir un exemple au préalable. Le score de GPT-4o dans ce domaine est de 53,6 %. Le modèle Claude 3 Opus en enregistre 50,4 %.

Pour la tâche Code, HumanEval, Claude 3.5 reste à la première place avec un pointage de 92,0 % en « 0-shot ». Les autres modèles montrent un score légèrement inférieur : 84,9 % pour Claude 3 Opus, 90,2% pour GPT-4o, 84,1 % pour Llama-400b et Gemini 1.5 Pro.

Concernant le raisonnement sur des textes, les scores des modèles sont assez serrés :

  • Claude 3.5 Sonnet : 87,1 % ;
  • Claude 3 Opus (83,1 %) ;
  • GPT-4o (83,4 %) ;
  • Llama-400b (83,5%) ;
  • Gemini 1.5 Pro (74,9%).

Dans les évaluations mixtes sur des tâches difficiles (Mixed evaluations, BIG-Bench-Hard), Claude 3.5 Sonnet obtient 93,1 % en « 3-shot CoT ». L’autre modèle d’Anthropic Claude 3 Opus atteint 86,8 %. Gemini 1.5 Pro présente un score de 89,2%, et Llama-400b a eu un résultat de 85,3%.

Ces avancées peuvent s’avérer ne pas se limiter aux applications académiques. Elles ont aussi la possibilité d’englober des domaines comme la gestion administrative

De nouveaux standards à établir

Claude 3.5 Sonnet est décrit comme étant l’idéal pour rédiger du contenu de qualité, en ayant un ton plus compréhensible et fluide. Le modèle est apprécié non seulement dans la rédaction de textes variés, mais aussi pour des applications complexes, comme la gestion administrative.

Outre les performances exceptionnelles de Claude 3.5 Sonnet, de nouveaux standards ont été établis par Anthropic. L’introduction d’une autre fonctionnalité sur Claude.ai permet aux utilisateurs de réaliser diverses tâches, notamment la possibilité d’inclure la compétence en codage et le raisonnement avancé. Appelée « Artefacts », cette fenêtre excelle dans :

  • Le codage ;
  • La conception de documents textes ;
  • La création de sites Internet.

D’ailleurs, Anthropic a précisé que :

« Cela crée un espace de travail dynamique où les utilisateurs peuvent voir, modifier et développer les créations de Claude en temps réel, en intégrant de manière transparente le contenu généré par l’IA dans leurs projets et leurs flux de travail. »

Dorénavant, l’accès gratuit à Claude 3.5 Sonnet est disponible sur l’application iOS et sur Claude.ai. Il est également possible d’accéder à ce modèle via :

  • L’API Anthropic ;
  • Google Cloud’s Vertex AI ;
  • Amazon Bedrock.

Anthropic prévoit de continuer les améliorations des modèles tous les deux mois. Plus tard dans l’année, l’entreprise américaine d’IA s’attend également à sortir deux autres nouveaux modèles : Claude 3.5 Haiku et Claude 3.5 Opus.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial