View all AI news articles

Lançamento furtivo de Llama 2 Long pela Meta: a IA que supera o GPT-3.5 e o Claude 2

May 17, 2024

A Meta Platforms, conhecida por seus serviços de mídia social como Facebook, Instagram e WhatsApp, fez discretamente um anúncio significativo. A empresa lançou um artigo de pesquisa no arXiv.org detalhando um novo modelo de IA chamado Llama 2 Long. Esse modelo é uma extensão do Llama 2 de código aberto, mas foi projetado para lidar com sequências de texto mais longas. Notavelmente, ele supera alguns dos principais modelos de IA, incluindo o GPT-3.5 Turbo e o Claude 2 da OpenAI, na geração de respostas a solicitações longas do usuário.

A gênese de Llama 2 Long

Os meta-pesquisadores pegaram o Llama 2 original e o modificaram para lidar com sequências de texto mais longas. Eles incluíram mais 400 bilhões de tokens no conjunto de dados de treinamento e fizeram as modificações necessárias na codificação posicional. Esse novo modelo vem em vários tamanhos, variando de 7 bilhões a 70 bilhões de parâmetros.

O âmago da questão técnica

A principal mudança foi na codificação do Rotary Positional Embedding (RoPE), que é crucial para que o modelo atenda a sequências mais longas. Essa modificação permite que o modelo inclua mais “tokens distantes”, ou aqueles que ocorrem mais raramente, em sua base de conhecimento.

Métricas de desempenho

Usando o Aprendizado por Reforço a partir do Feedback Humano (RLHF), os pesquisadores conseguiram melhorar o desempenho do modelo em tarefas como codificação, matemática, compreensão da linguagem e raciocínio de bom senso. Isso levou a resultados impressionantes, tornando o Llama 2 Long um concorrente formidável no cenário da IA.

Código aberto versus código fechado

O lançamento do Llama 2 Long foi bem recebido pela comunidade de IA de código aberto. Ele serve como uma validação da abordagem de código aberto da Meta e mostra que ela pode competir com modelos de código fechado oferecidos por startups bem financiadas.

PERGUNTAS FREQUENTES

O que é Llama 2 Long?

O Llama 2 Long é um novo modelo de IA lançado pela Meta Platforms, projetado para lidar com sequências de texto mais longas e supera alguns dos principais modelos de IA.

Como ele é diferente do Llama 2 original?

Ele inclui mais 400 bilhões de tokens em seu conjunto de dados de treinamento e passou por modificações para lidar com sequências de texto mais longas.

O que isso significa para a comunidade de IA?

O lançamento do Llama 2 Long foi bem recebido e serve como uma validação das abordagens de código aberto no desenvolvimento de IA.

Recent articles

View all articles