ImageBind: Modelo IA en seis modalidades

 

ImageBind ,el primer modelo de IA capaz de vincular información de seis modalidades, de código abierto. El modelo aprende un único espacio de representación integrado o compartido, no solo para texto, imagen/video y audio, sino también para sensores que registran profundidad (3D), térmica (radiación infrarroja) y unidades de medida inercial (IMU), que calculan el movimiento y posición ImageBind equipa a las máquinas con una comprensión holística que conecta los objetos en una foto con cómo sonarán, su forma 3D, qué tan cálidos o fríos están y cómo se mueven.


ImageBind puede superar a los modelos especializados anteriores entrenados individualmente para una modalidad en particular, como se describe en nuestro documento . Pero lo más importante es que ayuda a avanzar en la IA al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas. Por ejemplo, usando ImageBind, Make-A-Scene de Meta podría crear imágenes a partir de audio, como crear una imagen basada en los sonidos de una selva tropical o un mercado bullicioso. Otras posibilidades futuras incluyen formas más precisas de reconocer, conectar y moderar contenido, y de impulsar el diseño creativo, como generar medios más ricos de manera más fluida y crear funciones de búsqueda multimodal más amplias.

ImageBind es parte de los esfuerzos de Meta para crear sistemas de IA multimodales que aprenden de todos los tipos de datos posibles a su alrededor. A medida que aumenta el número de modalidades, ImageBind abre las compuertas para que los investigadores intenten desarrollar nuevos sistemas holísticos, como la combinación de sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos. ImageBind también podría proporcionar una forma rica de explorar recuerdos: buscar imágenes, videos, archivos de audio o mensajes de texto usando una combinación de texto, audio e imagen.

En los sistemas típicos de IA, existe una incorporación específica (es decir, vectores de números que pueden representar datos y sus relaciones en el aprendizaje automático) para cada modalidad respectiva. ImageBind muestra que es posible crear un espacio de incrustación conjunto a través de múltiples modalidades sin necesidad de entrenar en datos con cada combinación diferente de modalidades. Esto es importante porque los investigadores no pueden crear conjuntos de datos con muestras que contengan, por ejemplo, datos de audio y datos térmicos de una calle concurrida de la ciudad, o datos de profundidad y una descripción de texto de un acantilado junto al mar.

Así como ha habido avances recientes emocionantes en la generación de imágenes, videos y audio a partir de texto (como Make-A-Scene y Meta's Make-A-Video ), las capacidades multimodales de ImageBind podrían permitir a los investigadores usar otras modalidades como consultas de entrada y recuperación. Salidas en otros formatos. ImageBind también es un paso importante hacia la construcción de máquinas que puedan analizar diferentes tipos de datos de manera integral, como lo hacen los humanos.

Al alinear la incrustación de seis modalidades en un espacio común, ImageBind permite la recuperación intermodal de diferentes tipos de contenido que no se observan juntos, la adición de incrustaciones de diferentes modalidades para componer naturalmente su semántica y la generación de audio a imagen por usando nuestras incrustaciones de audio con un decodificador DALLE-2 preentrenado para trabajar con incrustaciones de texto CLIP.

Ver PAPER: https://arxiv.org/pdf/2305.05665.pdf