Snowflake coopère avec Meta autour de ses nouveaux modèles d’IA

Table des matières

Meta a récemment présenté sa famille de modèles d’intelligence artificielle baptisée Llama 3.1, dont le plus connu porte sur la version 405B. Le 29 juillet 2024, Snowflake a déclaré qu’il se chargera de son hébergement tout en l’accélérant. À cet effet, la société américaine a créé la pile de systèmes d’inférence.

Snowflake a conclu un accord avec Meta autour de ses modèles d’intelligence artificielle open source Llama 3.1, lancés le 23 juillet 2024. Dans le cadre de cet accord, le spécialiste du Cloud hébergera les modèles en question dans Snowflake Cortex AI. Il prendra en charge également la production de la pile de systèmes d’inférence en open source. Le résultat sera une inférence à haut débit et en temps réel.

Cette coopération aboutira sur la plus puissante et la plus grande version de la collection Llama 3.1 405B. Un modèle pour lequel la pile de systèmes de Snowflake procure des performances grandement améliorées. Le tout sur un seul nœud d’unité de traitement graphique.

Une infrastructure optimisée pour affiner Llama 3.1 405B

La pile de systèmes de Snowflake est également compatible avec de gigantesques fenêtres de contexte de 128K sur des paramètres à plusieurs nœuds. Les data scientists ont de surcroît la possibilité d’affiner Llama 3.1 405B. Il leur suffit de se servir de techniques de précision mixte sur moins d’unité de traitement graphique. Ceci supprimera la nécessité de grands agrégats. Les organisations peuvent ainsi ajuster et déployer des logiciels d’intelligence artificielle générative en toute sécurité, avec efficacité et facilité.

Le département de recherche de la firme de Bozeman a par ailleurs créé une infrastructure optimisée pour l’affinage. Celle-ci comprend la génération augmentée de récupération (RAG), des barrières de sécurité, la distillation de modèles… Elle intègre également la production de données synthétiques, permettant aux organisations de commencer avec facilité avec ces cas d’usage dans Cortex AI.

Bon à savoir : le métier de spécialiste des données peut être exercé en portage salarial. Il s’agit d’un dispositif grâce auquel on peut bénéficier des avantages aussi bien du salariat que du freelancing. Cette forme d’emploi permet notamment aux travailleurs indépendants de déléguer la gestion administrative de leurs activités à l’entreprise d’affiliation. Ils ont droit en même temps à une assurance chômage, une pension à la retraite…

Des énormes défis à relever

Tout comme avec les grands modèles similaires, Llama 3.1 se caractérise par une taille gigantesque et d’énormes besoins en mémoire. Son inférence et son fine-tuning pose ainsi des immenses défis. Afin de relever ceux relatifs aux exigences de mémoire, la firme de Bozeman s’appuie sur l’adaptation à faible rang (LoRA). L’objectif est de générer des modèles de plus petite taille, tout en conservant leur performance. Snowflake applique également la quantification en FP8 (8 bits flottants) afin d’amoindrir les exigences en calcul et en mémoire. Les ingénieurs de l’entreprise ont par ailleurs utilisé la technique de parallélisation des pipelines afin d’accroître au maximum l’efficacité des calculs. Cette augmentation résulte de la répartition égale des tâches entre les processeurs.

La gestion optimisée de la mémoire comprend des méthodes comme le chekpointing des activations. Cette technique sert à la sauvegarde des états intermédiaires afin de minimiser le recours à la mémoire durant l’entraînement. Le déchargement ciblé des paramètres sur l’unité centrale de calcul permet de surcroît une gestion plus efficace des ressources. Celle-ci est particulièrement meilleure quand les processeurs sont inutilisés.

Snowflake a aussi créé de nombreuses optimisations rendant possible le fine-tuning des modèles d’IA d’environ 400 milliards de paramètres. Ceci sur un hôte unique 8x H100-80Go ou sur de petits agrégats multinœuds.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial