LLaMA: Large Language M0dels

LLaMA es un modelo de lenguaje de 65 mil millones de parámetros, Meta lanza públicamente LLaMA (Large Language Model Meta AI), un modelo fundamental de lenguaje grande de última generación diseñado para ayudar a los investigadores a avanzar en su trabajo en este subcampo de la IA. Los modelos más pequeños y de mayor rendimiento, como LLaMA, permiten que otros en la comunidad de investigación que no tienen acceso a grandes cantidades de infraestructura estudien estos modelos.

El entrenamiento de modelos de base más pequeños como LLaMA es deseable en el espacio de modelos de lenguaje grande porque requiere mucho menos poder de cómputo y recursos para probar nuevos enfoques, validar el trabajo de otros y explorar nuevos casos de uso. Los modelos básicos se entrenan en un gran conjunto de datos sin etiquetar, lo que los hace ideales para realizar ajustes en una variedad de tareas. Estamos poniendo a disposición LLaMA en varios tamaños (parámetros 7B, 13B, 33B y 65B) y también compartimos una tarjeta modelo de LLaMA que detalla cómo construimos el modelo de acuerdo con nuestro enfoque de prácticas de IA responsable .

Los grandes modelos de lenguaje (procesamiento de lenguaje natural (NLP) con miles de millones de parámetros) han mostrado nuevas capacidades para generar texto creativo, resolver teoremas matemáticos , predecir estructuras de proteínas , responder preguntas de comprensión de lectura y más. Son uno de los casos más claros de los beneficios potenciales sustanciales que la IA puede ofrecer a escala a miles de millones de personas. Los modelos más pequeños entrenados en más tokens, que son piezas de palabras, son más fáciles de volver a entrenar y ajustar para casos de uso de productos potenciales específicos. Entrenamos LLaMA 65B y LLaMA 33B en 1,4 billones de tokens. Nuestro modelo más pequeño, LLaMA 7B, está entrenado en un billón de tokens.

Al igual que otros modelos de lenguaje grande, LLaMA funciona tomando una secuencia de palabras como entrada y predice la siguiente palabra para generar texto de forma recursiva. Para entrenar nuestro modelo, elegimos texto de los 20 idiomas con más hablantes, enfocándonos en aquellos con alfabetos latino y cirílico. LLaMA está diseñado para ser versátil y se puede aplicar a muchos casos de uso diferentes, en comparación con un modelo ajustado que está diseñado para una tarea específica. Al compartir el código de LLaMA, otros investigadores pueden probar más fácilmente nuevos enfoques para limitar o eliminar estos problemas en modelos de lenguaje grandes. También proporcionamos en el documento un conjunto de evaluaciones sobre puntos de referencia que evalúan los sesgos y la toxicidad del modelo para mostrar las limitaciones del modelo y respaldar futuras investigaciones en esta área crucial.

La comunidad de IA (investigadores académicos, sociedad civil, formuladores de políticas y la industria) debe trabajar en conjunto para desarrollar pautas claras sobre la IA responsable en general y los grandes modelos de lenguaje responsable en particular. Esperamos ver lo que la comunidad puede aprender, y eventualmente construir, usando LLaMA.

Ver más: Facebook AI

State-of-the-Art

Buscar este blog

LLaMA: Large Language M0dels