GPT-4: Generative Pretraining Transformers 4

GPT-4 es el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales. Por ejemplo, aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; por el contrario, la puntuación de GPT-3.5 se situó en torno al 10 % inferior. Paso 6 meses  alineando  GPT-4 iterativamente utilizando lecciones de nuestro programa de pruebas contradictorias, así como también de ChatGPT, lo que resultó en nuestros mejores resultados (aunque lejos de ser perfectos) en factualidad, capacidad de dirección y rehusarse a salirse de las barandillas.

Junto con Azure, se codiseño una supercomputadora desde cero para la carga de trabajo en el aprendizaje profundo . Hace un año, entrenamos GPT-3.5 como una primera "ejecución de prueba" del sistema. Encontramos y arreglamos algunos errores y mejoramos nuestros fundamentos teóricos. Como resultado, de una ejecución de entrenamiento GPT-4 fue estable sin precedentes, convirtiéndose en el primer modelo grande cuyo rendimiento de entrenamiento pudimos predecir con precisión con anticipación. A medida que continuo enfocándose en un escalamiento confiable, ya que objetivo es perfeccionar la metodología.

Capacidades

En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.

Para comprender la diferencia entre los dos modelos, probamos en una variedad de puntos de referencia, incluida la simulación de exámenes que fueron diseñados originalmente para humanos. Procedimos usando las pruebas disponibles públicamente más recientes (en el caso de las preguntas de respuesta libre de las Olimpiadas y AP) o comprando las ediciones 2022-2023 de los exámenes de práctica. No hicimos ningún entrenamiento específico para estos exámenes. El modelo detectó una minoría de los problemas en los exámenes durante el entrenamiento, pero creemos que los resultados son representativos; consulte nuestro informe técnico para obtener más detalles.

También evaluamos GPT-4 en puntos de referencia tradicionales diseñados para modelos de aprendizaje automático. GPT-4 supera considerablemente a los modelos de lenguaje grande existentes, junto con la mayoría de los modelos de última generación (SOTA) que pueden incluir protocolos de capacitación adicionales o elaboración específica de referencia:
Muchos puntos de referencia de ML existentes están escritos en inglés. Para tener una idea inicial de la capacidad en otros idiomas, traducimos el punto de referencia de MMLU, un conjunto de 14 000 problemas de opción múltiple que abarcan 57 temas, a una variedad de idiomas mediante Azure Translate (consulte el Apéndice ) . En los 24 de los 26 idiomas probados, GPT-4 supera el rendimiento en inglés de GPT-3.5 y otros LLM (Chinchilla, PaLM), incluso para idiomas de bajos recursos como letón, galés y swahili:

Limitaciones

A pesar de sus capacidades, GPT-4 tiene limitaciones similares a las de los modelos GPT anteriores. Lo que es más importante, todavía no es completamente confiable ("alucina" los hechos y comete errores de razonamiento). Se debe tener mucho cuidado al usar los resultados del modelo de lenguaje, particularmente en contextos de alto riesgo, con el protocolo exacto (como revisión humana, puesta a tierra con contexto adicional o evitar usos de alto riesgo por completo) que coincida con las necesidades de un caso de uso específico. .

Si bien sigue siendo un problema real, GPT-4 reduce significativamente las alucinaciones en relación con los modelos anteriores (que han ido mejorando con cada iteración). GPT-4 obtiene un puntaje 40% más alto que nuestro último GPT-3.5 en nuestras evaluaciones internas de factualidad contradictoria:

Proceso de entrenamiento

Al igual que los modelos GPT anteriores, el modelo base GPT-4 se entrenó para predecir la siguiente palabra en un documento y se entrenó utilizando datos disponibles públicamente (como datos de Internet), así como datos que tenemos bajo licencia. Los datos son un corpus de datos a escala web que incluye soluciones correctas e incorrectas a problemas matemáticos, razonamientos débiles y fuertes, afirmaciones autocontradictorias y consistentes, y que representan una gran variedad de ideologías e ideas.

Entonces, cuando se le solicita una pregunta, el modelo base puede responder en una amplia variedad de formas que pueden estar lejos de la intención del usuario. Para alinearlo con la intención del usuario dentro de las medidas de seguridad, ajustamos el comportamiento del modelo mediante el aprendizaje de refuerzo con retroalimentación humana ( RLHF ).

Tenga en cuenta que las capacidades del modelo parecen provenir principalmente del proceso de capacitación previa: RLHF no mejora el rendimiento del examen (sin un esfuerzo activo, en realidad lo degrada). Pero la dirección del modelo proviene del proceso posterior al entrenamiento: el modelo base requiere una ingeniería rápida para saber siquiera que debe responder a las preguntas.

API

Para obtener acceso a la API de GPT-4 (que usa la misma API de ChatCompletions que gpt-3.5-turbo), regístrese en nuestra lista de espera . Comenzaremos a invitar a algunos desarrolladores hoy y escalaremos gradualmente para equilibrar la capacidad con la demanda. Si es un investigador que estudia el impacto social de la IA o los problemas de alineación de la IA, también puede solicitar acceso subsidiado a través de nuestro Programa de Acceso para Investigadores .

Una vez que tenga acceso, puede realizar solicitudes de solo texto al modelo gpt-4 (las entradas de imagen todavía están en alfa limitado), que actualizaremos automáticamente a nuestro modelo estable recomendado a medida que hagamos nuevas versiones con el tiempo (puede anclar el versión actual llamando a gpt-4-0314, que admitiremos hasta el 14 de junio). El precio es de $0,03 por 1k tokens de solicitud y $0,06 por 1k tokens de finalización. Los límites de tasa predeterminados son 40k tokens por minuto y 200 solicitudes por minuto.

gpt-4 tiene una longitud de contexto de 8192 tokens. También brindamos acceso limitado a nuestra versión de contexto 32,768 (alrededor de 50 páginas de texto), gpt-4-32k, que también se actualizará automáticamente con el tiempo (la versión actual gpt-4-32k-0314, también admitida hasta el 14 de junio ). El precio es de $0,06 por 1K tokens de solicitud y $0,12 por 1k tokens de finalización. Todavía estamos mejorando la calidad del modelo para contextos largos y nos encantaría recibir comentarios sobre cómo funciona para su caso de uso. Estamos procesando solicitudes para los motores 8K y 32K a diferentes tarifas según la capacidad, por lo que puede recibir acceso a ellos en diferentes momentos.

Conclusión

Esperamos que GPT-4 se convierta en una herramienta valiosa para mejorar la vida de las personas al potenciar muchas aplicaciones. Todavía queda mucho trabajo por hacer, y esperamos mejorar este modelo a través de los esfuerzos colectivos de la comunidad construyendo, explorando y contribuyendo al modelo.

Para obtener más información: Lea el artículo