View all AI news articles

Скрытый запуск Meta Llama 2 Long: искусственный интеллект, затмивший GPT-3.5 и Claude 2

May 17, 2024

Компания Meta Platforms, известная своими социальными сетями, такими как Facebook, Instagram и WhatsApp, незаметно сделала важное объявление. Компания опубликовала на сайте arXiv.org исследование, в котором подробно описывается новая модель искусственного интеллекта под названием Llama 2 Long. Эта модель является расширением версии Llama 2 с открытым исходным кодом, но предназначена для обработки более длинных текстовых последовательностей. Примечательно, что она превосходит некоторые ведущие модели искусственного интеллекта, в том числе GPT-3.5 Turbo от OpenAI и Claude 2, в генерации ответов на длинные запросы пользователей.

Длинный сюжет «Генезис ламы 2»

Исследователи Meta взяли оригинальную версию Llama 2 и модифицировали ее для обработки более длинных текстовых последовательностей. Они добавили в обучающий набор данных еще 400 миллиардов токенов и внесли необходимые изменения в позиционную кодировку. Эта новая модель бывает разных размеров: от 7 миллиардов до 70 миллиардов параметров.

Технические тонкости

Ключевое изменение произошло в кодировке Rotary Positional Embedding (RopE), которая крайне важна для модели с более длинными последовательностями. Эта модификация позволяет включить в базу знаний модели больше «удаленных токенов» или токенов, которые встречаются реже.

Метрики производительности

Используя обучение с подкреплением на основе обратной связи человека (RLHF), исследователи смогли повысить производительность модели в таких задачах, как программирование, математика, понимание языка и рассуждение, основанное на здравом смысле. Это привело к впечатляющим результатам, благодаря чему Llama 2 Long стала серьезным конкурентом в сфере искусственного интеллекта.

Открытый исходный код или закрытый исходный код

Релиз Llama 2 Long был хорошо воспринят сообществом разработчиков искусственного интеллекта с открытым исходным кодом. Это подтверждение подхода Meta с открытым исходным кодом и показывает, что он может конкурировать с моделями с закрытым исходным кодом, предлагаемым хорошо финансируемыми стартапами.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое «Лама 2» в длину?

Llama 2 Long — это новая модель искусственного интеллекта, выпущенная Meta Platforms, которая предназначена для обработки более длинных текстовых последовательностей и превосходит некоторые ведущие модели искусственного интеллекта.

Чем она отличается от оригинальной Llama 2?

Учебный набор данных включает еще 400 миллиардов токенов и претерпел изменения для обработки более длинных текстовых последовательностей.

Что это значит для сообщества ИИ?

Выпуск Llama 2 Long был хорошо воспринят и служит подтверждением подходов с открытым исходным кодом к разработке искусственного интеллекта.

Recent articles

View all articles