View all AI news articles

The Mighty Mini: раскрытие возможностей миниатюрной языковой модели Microsoft Phi-2

February 27, 2024

Маленький, но мощный: путешествие Phi-2

Когда-то в недалеком прошлом волшебники из команды Microsoft Research Machine Learning Foundations придумали волшебное сочетание небольших языковых моделей, которое ласково называют «Phi». Эти крошечные титаны, в том числе параметр Phi-1 с параметром в 1,3 миллиарда, искусно подействовали при написании кода на Python и произвели настоящий фурор на таких тестах, как HumanEval и MBPP. Затем они посыпали ещё немного волшебной пыли и создали Phi-1.5, который, по мнению и логике, был в 5 раз больше своих собратьев.

Погрузитесь в Титан: Phi-2

Но подождите, это еще не все! Познакомьтесь с Phi-2, вундеркиндом с 2,7 миллиардами параметров, который вызывает настоящий ажиотаж в мире базовых языковых моделей. Представьте себе Давида, способного перехитрить нескольких Голиафов (в 25 раз больше их) в сложных тестах. Это Phi-2 для вас — мощный инструмент размером с пинту, демонстрирующий опытным ребятам, как можно масштабировать модели и обрабатывать обучающие данные.

Игровая площадка для исследователей

Phi-2 — это не просто тренировка мышц в тестах. Это игровая площадка, экспериментальный рай для исследователей. Благодаря своим компактным размерам он идеально подходит для изучения механической интерпретации, повышения безопасности и тонкой настройки различных задач. Корпорация Майкрософт даже представила его в каталоге моделей Azure AI Studio, приглашая любопытных умов исследовать и внедрять инновации.

Разрушаем стереотипы: секретный соус Phi-2

Итак, в чем же секрет удивительной силы Phi-2? Два слова: качество и инновации. Команда Microsoft сосредоточила свое внимание на учебных данных «качества учебников», сочетая синтетические наборы данных для достижения здравого смысла и общих знаний. Затем они перешли с версии Phi-1.5 и перенесли полученные знания на версию Phi-2, что значительно повысило результаты тестов.

Тренировочная строгость: за кулисами

Тренировочный режим Phi-2 — это не прогулка по парку. Это модель, основанная на Transformer и ставящая перед собой следующую задачу прогнозирования, разработанная на основе колоссальных 1,4 тысячи токенов из наборов данных Synthetic и Web. Тренинг, представлявший собой 14-дневный марафон на 96 графических процессорах A100, не включал в себя обучение с подкреплением, основанное на отзывах людей, или тонкую настройку. Тем не менее, по сравнению со своими аналогами этот учебный курс продемонстрировал более высокую степень токсичности и предвзятости, что свидетельствует о том, что корпорация Майкрософт применяет специально разработанную методику обработки данных.

Benchmark Bonanza: производительность Phi-2

Результаты Phi-2 по академическим показателям подобны наблюдению за тем, как боксер в легком весе превосходит свою весовую категорию. В различных бенчмарках он превосходит модели Mistral и Llama-2 по большим параметрам. Более того, он даже не уступает Gemini Nano 2 от Google, несмотря на меньшие размеры. В программировании и математике эта модель эффективна в многоступенчатом мышлении: она превосходит модели, в 25 раз превосходящие по своим размерам модели.

Оценка с долей скептицизма

Хотя достижения Phi-2 впечатляют, Microsoft признает трудности, связанные с оценкой моделей. Они провели обширное исследование по обеззараживанию Phi-1 и считают, что реальные сценарии использования — лучший тест для языковой модели. В сравнении с запатентованными наборами данных и задачами Phi-2 неизменно превосходил более крупные аналоги.

В заключение, Phi-2 может быть небольшим, но его характеристики не соответствуют его размеру. Дело не только в цифрах, но и в качестве, инновациях и практическом применении. В мире языковых моделей Phi-2 служит напоминанием о том, что иногда меньше значит больше.

Recent articles

View all articles