Grok 1.5 Vision : le premier LLM de xAI, par Elon Musk

Table des matières

Après l’annonce d’une version améliorée de Grok, xAI a finalement décidé d’introduire Grok 1.5 Vision, un Large Language Model (LLM) multimodal. Bien que cette version améliorée soit déjà performante en termes de compréhension du monde réel, xAI est déterminé à le perfectionner davantage avant sa mise sur le marché.

La startup xAI est spécialisée dans l’intelligence artificielle. En l’espace de quelques semaines, elle a développé une version 1.5 de son modèle de langage avancé Grok. Aujourd’hui, l’entreprise dévoile son premier Large Language Model (LLM) multimodal.

Ce modèle possède des capacités de traitement optimisées, qui lui permettent de résoudre des tâches plus complexes. Il peut travailler des photos, des diagrammes, des documents, des schémas et des images. Pour prouver ses avancées, xAI a présenté les résultats d’une comparaison interne, montrant les performances supérieures de Grok 1.5 Vision par rapport à des modèles de langage multimodal, développés par d’autres firmes.

Le nouveau LLM d’xAI bientôt disponible

D’après xAI, Grok 1.5V sera prochainement mis à disposition des actuels utilisateurs et testeurs de Grok. En parallèle, la start-up annonce également des recrutements dans divers secteurs, notamment des :

  • Ingénieurs en web crawling et data ;
  • Designers UI/UX ;
  • Chercheurs et ingénieurs en IA ;
  • Ingénieurs frontend ;
  • Développeurs web full stack.

xAI pourrait envisager de recourir à une entreprise de portage salarial telle que CEGELEM pour explorer de nouvelles opportunités de collaboration.

Dans les prochains mois, l’entreprise prévoit de mettre en œuvre des projets visant à améliorer significativement ses capacités de génération et de compréhension multimodale. Ces perfectionnements seront appliqués aux domaines de l’audio, l’image, et de la vidéo.

Dans un article publié sur son blog, xAI a exprimé un enthousiasme pour l’aptitude de Grok à interpréter le monde physique. En effet, Grok a surpassé ses concurrents dans le récent benchmark RealWorldQA. Ce dernier évalue la compréhension de l’espace dans le monde réel.

Grok 1.5 Vision face à ses pairs

Les résultats de l’analyse interne de l’entreprise ont été dévoilés. xAI a comparé les capacités de Grok 1.5 Vision à celles des modèles de langage multimodaux suivants :

  • Gemini Pro 1.5 celle de Google ;
  • GPT-4V appartenant à Open AI ;
  • Claude 3 Sonnet, de Opus (Anthropic).

Selon l’analyse comparative DocVQA, Grog 1.5 Vision a obtenu un résultat de 85,6 % contre à 89,5 % pour Claude 3 Sonnet. Cela indique que le modèle LLM de xAI est en retard par rapport à Claude 3 Sonnet, mais révèle un potentiel d’amélioration significatif face à ses concurrents. Dans cette optique, l’expertise supplémentaire apportée par une entreprise de portage salarial comme CEGELEM pourrait être bénéfique pour se démarquer des autres acteurs du marché.

Pour l’interprétation de texte ou TextVQA, les résultats montrent des performances prometteuses mais variables. Grok 1.5V se positionne en tête avec un score de 78,1 %, juste devant GPT-4V qui obtient un score de 78 %.

Concernant le test de performance ou RealWorldQA, Grok 1.5V a obtenu un score de 68,7 %. Celui-ci évalue la compréhension du monde réel. Ce résultat est légèrement supérieur à celui de Gemini Pro 1.5 qui est de 67,5 %. Par ailleurs, Claude 3 Sonnet et GPT-4V ont respectivement marqué 51,9 % et 61,4 %.

xIA tenait à expliquer que :

« La version initiale du RealWorldQA comprend plus de 700 images, avec une question et une réponse facilement vérifiable pour chaque image. L’ensemble de données se compose d’images anonymes prises sur des véhicules, ainsi que d’autres images du monde réel ».

Les données de l’entreprise sont mises à disposition de la communauté. Elles peuvent être téléchargées sous une licence Creative Commons.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial