View all AI news articles

El sigiloso lanzamiento de Llama 2 Long por parte de Meta: la IA que supera a GPT-3.5 y Claude 2

May 17, 2024

Meta Platforms, conocida por sus servicios de redes sociales como Facebook, Instagram y WhatsApp, hizo discretamente un importante anuncio. La compañía publicó un artículo de investigación en arXiv.org que detalla un nuevo modelo de IA llamado Llama 2 Long. Este modelo es una extensión de Llama 2 de código abierto, pero está diseñado para manejar secuencias de texto más largas. Cabe destacar que supera a algunos de los principales modelos de IA, como el GPT-3.5 Turbo y el Claude 2 de OpenAI, a la hora de generar respuestas a las largas instrucciones de los usuarios.

La génesis de Llama 2 Long

Los metainvestigadores tomaron el Llama 2 original y lo modificaron para manejar secuencias de texto más largas. Incluyeron 400 mil millones de fichas adicionales en el conjunto de datos de entrenamiento e hicieron las modificaciones necesarias en la codificación posicional. Este nuevo modelo viene en varios tamaños, que van desde 7 mil millones a 70 mil millones de parámetros.

El meollo técnico

El cambio clave se produjo en la codificación de incrustación posicional rotatoria (RoPE), que es crucial para que el modelo pueda atender secuencias más largas. Esta modificación permite al modelo incluir en su base de conocimientos más «elementos distantes», es decir, aquellos que ocurren con menos frecuencia.

Métricas de rendimiento

Mediante el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), los investigadores pudieron mejorar el rendimiento del modelo en tareas como la codificación, las matemáticas, la comprensión del lenguaje y el razonamiento con sentido común. Esto ha permitido obtener resultados impresionantes, lo que convierte a Llama 2 Long en un competidor formidable en el panorama de la IA.

Código abierto frente a código cerrado

El lanzamiento de Llama 2 Long ha sido bien recibido por la comunidad de IA de código abierto. Sirve como una validación del enfoque de código abierto de Meta y demuestra que puede competir con los modelos de código cerrado ofrecidos por empresas emergentes bien financiadas.

PREGUNTAS MÁS FRECUENTES

¿Qué es Llama 2 Long?

Llama 2 Long es un nuevo modelo de IA lanzado por Meta Platforms que está diseñado para gestionar secuencias de texto más largas y supera a algunos de los principales modelos de IA.

¿En qué se diferencia del Llama 2 original?

Incluye 400 mil millones de fichas adicionales en su conjunto de datos de entrenamiento y se ha modificado para gestionar secuencias de texto más largas.

¿Qué significa esto para la comunidad de IA?

El lanzamiento de Llama 2 Long ha sido bien recibido y sirve como una validación de los enfoques de código abierto en el desarrollo de la IA.

Recent articles

View all articles