View all AI news articles

The Mighty Mini: revelando o poder do modelo de linguagem pequena da Microsoft, o Phi-2

February 27, 2024

Pequeno, mas poderoso: a jornada do Phi-2

Era uma vez, em um passado não muito distante, os magos da equipe da Microsoft Research Machine Learning Foundations inventaram uma poção mágica de pequenos modelos de linguagem, conhecida carinhosamente como “Phi”. Esses pequenos titãs, incluindo o parâmetro Phi-1 de 1,3 bilhão, fizeram magia na codificação Python, causando impacto em benchmarks como HumanEval e MBPP. Eles então espalharam um pouco mais de pó mágico, criando o Phi-1.5, que pensava e raciocinava como seus primos 5 vezes maiores.

Entre no Titan: Phi-2

Mas espere, tem mais! Entra o Phi-2, o prodígio de 2,7 bilhões de parâmetros que está causando polêmica no reino dos modelos básicos de linguagem. Imagine um David capaz de superar vários Golias - até 25 vezes seu tamanho - em benchmarks complexos. Este é o Phi-2 para você, uma pequena potência que mostra aos grandes como isso é feito no dimensionamento de modelos e na curadoria de dados de treinamento.

O playground para pesquisadores

O Phi-2 não se trata apenas de flexionar seus músculos em benchmarks. É um playground, um paraíso experimental para pesquisadores. Com seu tamanho compacto, é perfeito para se interessar pela interpretabilidade mecanicista, melhorias de segurança e ajustar várias tarefas. A Microsoft até o apresentou no catálogo de modelos do Azure AI Studio, convidando mentes curiosas a explorar e inovar.

Quebrando o molde: o molho secreto do Phi-2

Então, qual é o segredo por trás da força surpreendente do Phi-2? Duas palavras: qualidade e inovação. A equipe da Microsoft se concentrou em dados de treinamento com “qualidade de livros didáticos”, misturando conjuntos de dados sintéticos para o bom senso e o conhecimento geral. Eles então aumentaram a escala do Phi-1.5, transferindo seu conhecimento para o Phi-2, o que aumentou significativamente suas pontuações de referência.

Rigor do treinamento: nos bastidores

O regime de treinamento do Phi-2 não é um passeio no parque. É um modelo baseado em Transformer com uma meta de previsão de última palavra, treinado com incríveis tokens de 1,4 T de conjuntos de dados sintéticos e da Web. O treinamento, uma maratona de 14 dias em 96 GPUs A100, não incluiu aprendizado por reforço a partir do feedback humano nem instruiu o ajuste fino. No entanto, mostrou um melhor comportamento em termos de toxicidade e preconceito em comparação com seus pares, uma prova da técnica personalizada de curadoria de dados da Microsoft.

Benchmark Bonanza: desempenho do Phi-2

O desempenho do Phi-2 em referências acadêmicas é como assistir a um boxeador leve batendo muito acima de sua categoria de peso. Ele supera os modelos Mistral e Llama-2 com parâmetros maiores em vários benchmarks. Além disso, ele ainda fica de igual para igual com o Gemini Nano 2 do Google, apesar de ser menor em tamanho. Em codificação e matemática, é um campeão do raciocínio em várias etapas, superando modelos 25 vezes maiores que seu tamanho.

Avaliando com uma pitada de sal

Embora as conquistas do Phi-2 sejam impressionantes, a Microsoft reconhece os desafios na avaliação de modelos. Eles conduziram um extenso estudo de descontaminação para o Phi-1 e acreditam que os casos de uso do mundo real são o melhor teste para um modelo de linguagem. Quando comparado com conjuntos de dados e tarefas proprietários, o Phi-2 superou consistentemente seus equivalentes maiores.

Concluindo, o Phi-2 pode ser pequeno, mas tem uma força que desmente seu tamanho. Não se trata apenas de números; trata-se de qualidade, inovação e aplicação prática. No mundo dos modelos de linguagem, o Phi-2 é um lembrete de que, às vezes, menos pode realmente ser mais.

Recent articles

View all articles