Avec le lancement de Gemini 2.0, Google marque une nouvelle étape dans l’ère agentique, en mettant l’accent sur des interactions plus fluides et une plus grande autonomie des modèles d’IA. Ce nouveau modèle prend en charge des entrées et sorties multimodales, incluant la génération d’images, la synthèse vocale et le traitement de texte.
Google a récemment présenté Gemini 2.0 Flash, une version optimisée de son modèle d’IA, qui surpasse le 1.5 Pro sur plusieurs benchmarks clés. Il offre des performances doublées en vitesse, tout en améliorant la factualité, le raisonnement, le traitement du code et des problèmes mathématiques. Cette annonce fait suite à l’introduction de Gemini-Exp-1206, brièvement en tête du classement Chatbot Arena, devant GPT-4o d’OpenAI. Ce modèle expérimental, doté d’une fenêtre contextuelle de 2 millions de jetons, peut traiter plus d’une heure de contenu vidéo. Fait notable, il est gratuitement accessible, entrant ainsi en concurrence directe avec les offres payantes d’OpenAI. Google affirme que plus d’un milliard d’utilisateurs ont déjà expérimenté ses aperçus IA, avec une expansion mondiale en cours.
L’interface multimodale de Gemini ouvre de nouvelles possibilités
Gemini 2.0 repose sur des investissements massifs en IA et en matériel, notamment avec Trillium. Ce TPU de sixième génération de Google alimente en effet l’entraînement et l’inférence de ce modèle IA. Le but est surtout de permettre aux modèles d’être performants et accessibles à tout développeur, y compris un consultant porté souhaitant intégrer des capacités IA avancées dans ses projets.
Dès à présent, tout utilisateur de Gemini a la possibilité de tester un modèle optimisé de Gemini 2.0 Flash en passant par l’interface de chat. De même, le modèle est disponible par le biais de l’API Gemini dans Vertex Ai et Google AI Studio. L’une des visées importantes de Google est de concevoir une nouvelle classe d’expérience agentiques, où l’IA peut :
- Comprendre un contexte complexe ;
- Anticiper des actions ;
- Accomplir des tâches de manière autonome.
Par ailleurs, Gemini 2.0 s’inscrit également dans une stratégie de partenariat avec les développeurs, en proposant des outils avancés pour créer des applications dynamiques. Grâce à une interface de programmation multimodale, il est dorénavant possible d’exploiter simultanément audio, vidéo et autres outils interactifs. Google compte ainsi sur une adoption rapide et sécurisée, en déployant progressivement de nouvelles fonctionnalités auprès de testeurs fiables avant tout lancement élargi.
Google accélère l’intégration d’agents IA au quotidien
Pour la création d’autres classes d’expérience agentiques, cela implique le développement de prototypes comme le projet Astra. Celui-ci permet d’améliorer la compréhension multimodale et la mémoire des assistants IA. À présent, Astra a la capacité de dialoguer dans diverses langues tout en utilisant Google Search Lens et Maps. Ce modèle dispose également d’une mémoire de 10 minutes par session pour une personnalisation accrue.
Quant au projet Mariner, il explore l’interaction entre l’homme et l’IA dans le cadre de la navigation web. Un agent IA sera capable d’interagir avec le contenu d’un navigateur (texte, images, formulaires, code) tout en effectuant des tâches via une extension Chrome expérimentale. Lors de tests sur le benchmark WebVoyager, Mariner a obtenu un score de 83,5 %, prouvant son aptitude à réaliser des tâches complexes sur le web.
Avec ces avancées, Google cherche en effet à renforcer la présence de l’IA dans le quotidien des utilisateurs. L’entreprise souhaite simplifier l’accès à des assistants intelligents plus performants. La création de Gemini 2.0 sert d’intégration à d’autres produits. Ce modèle devrait être déployé plus largement au début de l’année prochaine. Cette simplification d’accès permettrait à un consultant porté de proposer des solutions basées sur des IA assistants performants.
Google explore aussi de nouvelles applications, comme l’intégration d’agents IA dans des lunettes connectées. Cela pourra ouvrir la voie à des interactions plus fluides et immersives avec l’IA.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Nombre de votes 0