La technologie ReALM d’Apple est-elle plus avancée que GPT-4 ?

Table des matières

Les chercheurs d’Apple ont développé un nouveau système d’IA baptisé ReALM. Son principal objectif est d’améliorer les capacités de Siri en matière d’interprétation des langages et des images. Grâce à ses nouvelles fonctionnalités, l’assistant vocal surpasse les capacités de GPT-4. D’autres innovations sont attendues de la part d’Apple lors de la prochaine conférence développeur WWDC qui se tiendra le 10 au 14 juin 2024.

Dans le contexte actuel de l’IA, les entreprises rivalisent pour proposer leurs technologies. Malgré un certain retard dans ce domaine, Apple a pu développer son assistant vocal Siri. Aujourd’hui, il prend l’initiative et propose une solution révolutionnaire : ReALM. C’est l’abréviation de Reference Resolution As Language Modeling. Cette technologie, basée sur des LLM, permet de mettre en relation les images et les éléments textuels. Elle offre également la possibilité de résoudre différentes références afin de faciliter la contextualisation des réponses données par Siri suite à une commande vocale. ReALM a été spécialement conçu pour optimiser les performances des assistants vocaux en assimilant les références et interprétant correctement les requêtes.

Rattraper son retard dans l’IA

Les utilisateurs d’assistants vocaux proviennent de divers horizons et peuvent être des particuliers, des étudiants, des travailleurs salariés, en freelance ou en portage salarial. Ils aspirent à disposer d’une technologie efficace pour les assister au quotidien. Apple a développé ReALM en identifiant une faille dans le fonctionnement des assistants vocaux. Selon les chercheurs :

« La plupart des données d’apprentissage par l’image sont construites sur des images naturelles, et non sur des pages web artificielles codées et remplies de texte, de sorte que l’OCR directe est moins efficace. »

De plus, les assistants vocaux rencontrent des difficultés à interpréter les commandes comprenant des adjectifs démonstratifs. Ils peuvent ainsi rencontrer des blocages lorsqu’une requête fait référence à un élément particulier, tel que « ce » numéro, cet « établissement » ou « celle-ci ».

Par exemple, lorsque l’utilisateur effectue une recherche sur un commerce à proximité, et demande à l’assistant vocal de contacter celui qui est situé dans une certaine ville, ou bien de composer un numéro inscrit sur l’image en bas de l’écran, il peut se heurter à des difficultés d’interprétation.

Apple a développé plusieurs versions de cette technologie, proposant 80 millions à 3 milliards de paramètres. L’utilisateur peut également opter pour une solution de 250 millions à un milliard de paramètres. Il a été constaté que les petits modèles sont semblables à GPT-4 et sont plus adaptés à une utilisation sur mobile.

Repousser les limites de Siri

La firme de Cupertino déploie ses efforts pour optimiser les fonctionnalités de Siri. Ses recherches ont conduit à un système d’IA capable de comprendre la complexité des conversations et d’assimiler facilement le contexte. En intégrant davantage d’IA à Siri, Apple a significativement amélioré ses performances. Cette solution s’avère particulièrement adaptée aux travailleurs indépendants, en portage salarial ou non, cherchant à optimiser leur productivité.

Par exemple, lorsqu’un utilisateur navigue sur un site web et souhaite entrer en contact avec l’entreprise, il lui suffit de demander à Siri de passer l’appel, sans fournir d’autres indications. L’assistant est capable de comprendre le sens de la demande et de rechercher un contact sur la page web. Il peut trouver le numéro de téléphone sur un coin ou sur une image et lancer l’appel immédiatement.

La technique de ReALM consiste à découper les images en plusieurs sections. Il peut ainsi détecter tous les éléments visuels tels que les inscriptions. Le système de découpage d’image, combiné à un outil LLM, permet à Siri de dépasser les compétences de GPT-4.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial