OpenAI continue d’épater le monde avec ses inventions dans le monde de l’intelligence artificielle générative. Après ses pépites DALL-E et ChatGPT, la start-up américaine vient de dévoiler son nouveau produit baptisé Sora. Le programme est présenté comme assurant un rendu de qualité élevée. À la différence des deux autres solutions d’OpenAI, il est pour l’instant accessible seulement à quelques testeurs.
La jeune pousse derrière ChatGPT OpenAI a lancé officiellement son générateur de vidéos alimenté à l’intelligence artificielle Sora. Comme l’application DALL-E, l’outil est en mesure de produire une vidéo à l’aide d’une image fixe. Il est même capable de prendre des images afin d’en agrémenter une vidéo qui existe déjà.
La start-up américaine souligne qu’elle a prévu des fonctionnalités pour éviter les déviances lors du recours au programme. Sora dispose en effet de capacités de contrôle et de refus des saisies de texte violant sa politique d’utilisation.
Renforcer les garde-fous instaurés avant une large distribution
Si le nouvel instrument d’IA générative d’OpenAI suscite l’engouement, un point risque de désenchanter plus d’un : l’accès à son utilisation. Un consultant informatique devra par exemple patienter avant de pouvoir en profiter. Sora est en effet mis à disposition de seulement deux groupes d’usagers pour l’instant :
- Des cinéastes, des designers et des artistes visuels afin de répondre aux attentes des professionnels de la création ;
- Des Red Teams, spécialistes des secteurs comme les préjugés, la désinformation et les contenus haineux. Ces experts expérimenteront l’outil de façon contradictoire dans le but d’analyser les champs critiques en matière de risques et de dégâts.
OpenAI cultive le silence concernant une éventuelle ouverture du générateur de vidéos pour le tout public. La jeune pousse préfère se concentrer sur les balises instaurées en amont d’une diffusion étendue. Elle indique qu’en plus de la collaboration avec des Red Teams, ils conçoivent dans un même temps :
« des outils pour aider à détecter les contenus trompeurs, comme un classificateur de détection qui peut déterminer quand une vidéo a été générée par Sora. »
Quelques imperfections restent à corriger
La société reconnaît que Sora affiche quelques défauts, dont la difficulté à répliquer avec exactitude la physique d’une scène complexe. Le modèle d’IA générative peine par ailleurs quelquefois à cerner des cas déterminés de causalité. OpenAI illustre qu’un individu peut par exemple :
« mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure. »
Il arrive également que Sora rencontre des problèmes lors de la description des événements qui évoluent dans le temps. L’application peut ainsi avoir du mal à suivre un mouvement de caméra préalablement déterminé. Elle se trompe aussi parfois sur les détails spatiaux, et peut confondre la droite et la gauche. Un consultant IT en quête de missions peut donc prospecter de ce côté, car des renforts peuvent être nécessaires pour corriger ces imperfections.
OpenAI précise que son nouveau bébé technologique se base sur de précédents travaux sur les modèles GPT et DALL-E. Sora recourt à la méthode de récapitulation de DALL-E 3. Une technique qui réside dans la production de légendes très descriptives pour les informations d’entraînement visuel. Le programme est par conséquent capable de s’ajuster plus optimalement aux requêtes textuelles de l’usager dans la vidéo conçue. La start-up américaine détaille que son modèle texte-vidéo est capable de :
« Générer des vidéos d’une durée maximale d’une minute tout en conservant la qualité visuelle et le respect du prompt de l’utilisateur. »
Comme DALL-E, l’application constitue un modèle d’IA générative de type Transformer.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Nombre de votes 0