Voir tous les articles de presse sur l'IA

Le Mighty Mini : Découvrez toute la puissance du petit modèle de langage de Microsoft, Phi-2

February 27, 2024

Petit mais puissant : le voyage de Phi-2

Il était une fois dans un passé pas si lointain, les sorciers de l'équipe de la Fondation de l'apprentissage automatique de Microsoft Research ont concocté une potion magique de petits modèles linguistiques, affectueusement appelés « Phi ». Ces minuscules titans, dont le paramètre Phi-1 de 1,3 milliard, se sont adonnés au codage Python, faisant sensation sur des repères comme HumanEval et MBPP. Ils ont ensuite saupoudré un peu plus de poussière magique, créant Phi-1.5, qui pensait et raisonnait comme ses cousins 5 fois plus grands..

Entrez le Titan : Phi-2

Mais attendez, il y a plus ! Entrez Phi-2, le prodige de 2,7 milliards de paramètres qui fait sensation dans le domaine des modèles de langage de base. Imaginez un David capable de déjouer plusieurs Goliaths - jusqu'à 25 fois sa taille - dans des repères complexes. Il s'agit de Phi-2 pour vous, une centrale électrique de la taille d'une pinture qui montre aux grands garçons comment procéder en matière de mise à l'échelle des modèles et de conservation des données d'entraînement.

Le terrain de jeu pour les chercheurs

Le Phi-2 ne consiste pas seulement à fléchir ses muscles en fonction de points de repère. C'est un terrain de jeu, un havre expérimental pour les chercheurs. Grâce à sa taille compacte, il est parfait pour s'intéresser à l'interprétabilité mécanique, à améliorer la sécurité et à peaufiner diverses tâches. Microsoft l'a même présenté dans le catalogue de modèles Azure AI Studio, invitant les esprits curieux à explorer et à innover.

Briser le moule : la sauce secrète de Phi-2

Alors, quel est le secret derrière la force surprenante de Phi-2 ? Deux mots : qualité et innovation. L'équipe de Microsoft s'est concentrée sur des données de formation « de qualité pour les manuels », mélangeant des ensembles de données synthétiques pour le bon sens et les connaissances générales. Ils sont ensuite passé de Phi-1,5, transférant ses connaissances à Phi-2, ce qui a considérablement augmenté ses scores de référence.

Rigueur de l'entraînement : dans les coulisses

Le programme d'entraînement de Phi-2 ne consiste pas à marcher dans le parc. Il s'agit d'un modèle basé sur Transformer avec un objectif de prédiction de mots suivants, formé sur des jetons de 1,4T imposants provenant d'ensembles de données synthétiques et Web. L'entraînement, un marathon de 14 jours sur 96 GPU A100, n'incluait pas d'apprentissage par renforcement à partir de la rétroaction humaine ni de perfectionner les instructions. Pourtant, il a montré un meilleur comportement en matière de toxicité et de biais par rapport à ses pairs, ce qui témoigne de la technique de conservation des données sur mesure de Microsoft..

Benchmark Bonanza : Performance du Phi-2

La performance de Phi-2 sur les points de repère académiques est comme regarder un boxeur léger frapper bien au-dessus de sa catégorie de poids. Il l'emporte sur les modèles Mistral et Llama-2 avec des paramètres plus importants sur divers points de repère. Non seulement cela, il va même de pair avec Gemini Nano 2 de Google, bien qu'il soit plus petit. En codage et en mathématiques, c'est un champion du raisonnement en plusieurs étapes, surpassant les modèles 25 fois sa taille.

Évaluer avec une pincée de sel

Bien que les réalisations de Phi-2 soient impressionnantes, Microsoft reconnaît les défis liés à l'évaluation des modèles. Ils ont mené une vaste étude de décontamination du Phi-1 et croient que les cas d'utilisation dans le monde réel constituent le meilleur test pour un modèle linguistique. Lorsqu'il est comparé à des ensembles de données et à des tâches exclusifs, Phi-2 a toujours surpassé ses homologues plus importants.

En conclusion, le Phi-2 est peut-être petit, mais il a un poinçon qui contredit sa taille. Il ne s'agit pas seulement de chiffres ; il s'agit de qualité, d'innovation et d'application pratique. Dans le monde des modèles linguistiques, Phi-2 rappelle que parfois, moins peut en effet être plus.

Articles récents

Voir tous les articles