Voir tous les articles de presse sur l'IA

Lancement furieux de Llama 2 Long par Meta : l'IA qui surmonte GPT-3.5 et Claude 2

May 17, 2024

Meta Platemans, connue pour ses services de médias sociaux comme Facebook, Instagram et WhatsApp, a discrètement fait une annonce importante. La société a publié un document de recherche sur arXiv.org détaillant un nouveau modèle d'IA appelé Llama 2 Long. Ce modèle est une extension de leur logiciel libre Llama 2, mais il est conçu pour gérer des séquences de texte plus longues. Notamment, il surpasse certains des principaux modèles d'IA, y compris GPT-3.5 Turbo d'OpenAI et Claude 2, en générant des réponses aux longues demandes des utilisateurs.

La genèse de Llama 2 Long

Les méta-chercheurs ont pris le Llama 2 original et l'ont modifié pour gérer des séquences de texte plus longues. Ils ont ajouté 400 milliards de jetons supplémentaires à l'ensemble de données d'entraînement et ont apporté les modifications nécessaires au codage positionnel. Ce nouveau modèle est offert en différentes tailles, allant de 7 milliards à 70 milliards de paramètres.

Les détails techniques

Le changement clé concernait le codage RoPE (Rotary Positional Enbedding), qui est crucial pour que le modèle s'occupe de séquences plus longues. Cette modification permet au modèle d'inclure plus de « jetons distants », ou ceux qui se produisent plus rarement, dans sa base de connaissances.

Mesures de rendement

En utilisant l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), les chercheurs ont pu améliorer le rendement du modèle dans des tâches comme le codage, les mathématiques, la compréhension du langage et le raisonnement sensé. Cela a mené à des résultats impressionnants, faisant de Llama 2 Long un concurrent redoutable dans le paysage de l'IA.

Source libre ou source fermée

La sortie de Llama 2 Long a été bien accueillie par la communauté de l'IA open source. Il sert de validation de l'approche open source de Meta et montre qu'elle peut concurrencer les modèles à source fermée offerts par des entreprises en démarrage bien financées.

FOIRE AUX QUESTIONS

Qu'est-ce que Llama 2 Long ?

Llama 2 Long est un nouveau modèle d'IA lancé par Meta Platformanes qui est conçu pour gérer des séquences de texte plus longues et surpasse certains modèles d'IA de premier plan.

En quoi est-ce différent du Llama 2 original ?

Il inclut 400 milliards de jetons supplémentaires dans son ensemble de données d'entraînement et a subi des modifications pour gérer des séquences de texte plus longues.

Qu'est-ce que cela signifie pour la communauté de l'IA ?

La sortie de Llama 2 Long a été bien accueillie et sert de validation des approches open source dans le développement de l'IA.

Articles récents

Voir tous les articles