PaLM

PaLM demuestra el primer uso a gran escala del sistema Pathways para escalar el entrenamiento a 6144 chips, la configuración de sistema basada en TPU más grande utilizada para el entrenamiento hasta la fecha. El entrenamiento se escala mediante el paralelismo de datos en el nivel de pod en dos pods de Cloud TPU v4 , mientras se usan datos estándar y paralelismo de modelo dentro de cada pod. Este es un aumento significativo en la escala en comparación con la mayoría de los LLM anteriores, que se entrenaron en un solo TPU v3 Pod (por ejemplo, GLaM , LaMDA ), usaron paralelismo de canalización para escalar a 2240 GPU A100 en clústeres de GPU ( Megatron-Turing NLG ) o usó múltiples TPU v3 Pods ( Gopher ) con una escala máxima de 4096 chips TPU v3.

PaLM logra una eficiencia de capacitación del 57,8 % en la utilización de FLOP de hardware, la más alta alcanzada hasta ahora para los LLM a esta escala . Esto se debe a una combinación de la estrategia de paralelismo y una reformulación del bloque Transformador que permite que las capas de atención y avance se calculen en paralelo, lo que permite acelerar las optimizaciones del compilador de TPU. PaLM se capacitó con una combinación de conjuntos de datos en inglés y multilingües que incluyen documentos web de alta calidad, libros, Wikipedia, conversaciones y código de GitHub.

Capacidades innovadoras en tareas de lenguaje, razonamiento y código

PaLM muestra capacidades innovadoras en numerosas tareas muy difíciles. A continuación, destacamos algunos ejemplos de comprensión y generación de lenguaje, razonamiento y tareas relacionadas con el código.


Comprensión y generación del lenguaje

Evaluamos PaLM en 29 tareas de procesamiento de lenguaje natural (NLP) en inglés ampliamente utilizadas. PaLM 540B superó el rendimiento de pocos disparos de modelos grandes anteriores, como GLaM , GPT-3 , Megatron-Turing NLG , Gopher , Chinchilla y LaMDA , en 28 de 29 tareas que abarcan tareas de preguntas y respuestas (dominio abierto cerrado- variante de libro), tareas de cierre y finalización de oraciones, tareas de estilo Winograd , tareas de comprensión de lectura en contexto, tareas de razonamiento de sentido común, tareas de SuperGLUE y tareas de inferencia de lenguaje natural.

Además de las tareas de PNL en inglés, PaLM también muestra un sólido desempeño en los puntos de referencia de PNL multilingüe, incluida la traducción, a pesar de que solo el 22 % del corpus de capacitación no está en inglés.

También investigamos las capacidades emergentes y futuras de PaLM en Beyond the Imitation Game Benchmark (BIG-bench), un conjunto recientemente lanzado de más de 150 nuevas tareas de modelado de lenguaje, y descubrimos que PaLM logra un rendimiento innovador. Comparamos el rendimiento de PaLM con Gopher y Chinchilla , promediado en un subconjunto común de 58 de estas tareas. Curiosamente, observamos que el rendimiento de PaLM en función de la escala sigue un comportamiento logarítmico lineal similar al de los modelos anteriores, lo que sugiere que las mejoras de rendimiento de la escala aún no se han estancado . El PaLM 540B de 5 disparos también supera el rendimiento promedio de las personas a las que se les pide que resuelvan las mismas tareas.


Razonamiento

Al combinar la escala del modelo con la indicación de la cadena de pensamientos , PaLM muestra capacidades innovadoras en tareas de razonamiento que requieren aritmética de varios pasos o razonamiento de sentido común. Los LLM anteriores, como Gopher , vieron menos beneficios de la escala del modelo en la mejora del rendimiento.


Codigo de GENERACION

También se ha demostrado que los LLM [ 1 , 2 , 3 , 4 ] se generalizan bien en tareas de codificación, como escribir código con una descripción en lenguaje natural (texto a código), traducir código de un idioma a otro y corregir errores de compilación (código a código).

PaLM 540B muestra un sólido rendimiento en tareas de codificación y tareas de lenguaje natural en un solo modelo, aunque solo tiene un 5 % de código en el conjunto de datos previo al entrenamiento. Su rendimiento de pocos disparos es especialmente notable porque está a la par con el Codex 12B perfeccionado mientras usa 50 veces menos código Python para el entrenamiento. Este resultado refuerza los hallazgos anteriores de que los modelos más grandes pueden ser más eficientes en la muestra que los modelos más pequeños porque transfieren el aprendizaje de otros lenguajes de programación y datos del lenguaje natural de manera más efectiva.

__________________________________

PaLM demuestra la capacidad de escalado del sistema Pathways a miles de chips aceleradores en dos pods TPU v4 al entrenar un modelo de 540 mil millones de parámetros de manera eficiente con una receta bien estudiada y bien establecida de un modelo de transformador denso solo de decodificador. Empujar los límites de la escala del modelo permite un rendimiento revolucionario de pocos disparos de PaLM en una variedad de tareas de código, razonamiento y procesamiento del lenguaje natural.


Ver Paper: https://arxiv.org/pdf/2204.02311.pdf