Los investigadores han observado recientemente mejoras significativas en el ajuste de las instrucciones de los modelos de lenguaje grandes (LLM). ChatGPT y GPT-4 son sistemas parlantes de uso general que obedecen órdenes humanas en lenguaje y elementos visuales. Sin embargo, todavía no son replicables debido a la restricción del código cerrado. Alpaca, LLaMAAdapter y esfuerzos relacionados ofrecen modificar el LLaMA de acceso público en modelos de instrucción de idiomas utilizando datos autogenerados en respuesta a esto. LLaVA, LLaMA-Adapter y otros integran capacidades de comprensión visual en los LLM para la generación condicionada de imágenes para lograr la personalización de la instrucción con imágenes.
A pesar del éxito de las técnicas actuales de ajuste de instrucciones, se necesita más para crear un LLM para instrucciones multimodales amplias, como texto, imágenes, audio, nubes de puntos 3D y vídeo. Los autores de este estudio del Laboratorio de Inteligencia Artificial de Shanghai, CUHK MMLab y vivo AI Lab presentan el modelo de seguimiento de instrucciones multimodal ImageBind-LLM, que ajusta eficazmente LLaMA bajo la dirección del espacio de incrustación de articulaciones en el ImageBind previamente entrenado. Como se muestra en la Figura 1, su ImageBind-LLM (b) puede responder a instrucciones de entrada de numerosas modalidades además de imágenes, a diferencia de los modelos de instrucción visual anteriores (a), lo que demuestra una extensibilidad y una capacidad de generalización prometedoras.
Proponen específicamente utilizar únicamente los datos de visión y lenguaje para modificar la instrucción multimodal debido al espacio de incrustación multimodal alineado con imágenes de ImageBind. Para un par de imagen y título, primero extraen la característica de imagen global utilizando el codificador de imágenes congeladas de ImageBind antes de incorporar la transformación utilizando una red de enlace que se puede aprender. La función de imagen convertida se aplica posteriormente a todos los tokens de palabras de la capa transformadora en LLaMA, creando el contexto visual para generar el título de texto apropiado. A diferencia de la atención inicializada en cero de la serie LLaMA-Adapter, su mecanismo de inyección visual es simple y ponderado por un factor de activación inicializado en cero entrenable.
De esta manera efectiva, a medida que avanza la capacitación, las señales de instrucción de las incorporaciones multimodales de ImageBind pueden introducirse gradualmente en LLaMA sin interferir con la comprensión del idioma original. Al utilizar ImageBind para codificaciones de modalidades específicas, como texto, imagen, audio y video, su ImageBind-LLM adquiere la competencia para obedecer instrucciones de diversas modalidades después del entrenamiento básico de visión y lenguaje. Utilizan el codificador 3D previamente entrenado en Point-Bind para codificar las nubes de puntos 3D de entrada para instrucciones en dominios 3D. También proporcionan un enfoque de caché visual sin entrenamiento para incorporar aumento durante la inferencia para abordar la brecha de modalidad entre el entrenamiento de imágenes y la producción condicionada de texto, audio, 3D o video.
El modelo de caché comprende millones de características de imagen en los conjuntos de datos de entrenamiento recuperados por ImageBind, que mejora las incrustaciones de texto/audio/3D/video al obtener características visuales comparables (Tip-Adapter). Como resultado, las respuestas verbales a instrucciones multimodales son de mayor calidad. Ponen a prueba las capacidades multimodales de seguimiento de instrucciones de ImageBind-LLM en diversas circunstancias y descubren constantemente que funciona mejor.
En general, su ImageBind-LLM demuestra las cuatro cualidades que se enumeran a continuación.
• Instrucciones con muchos modos. ImageBind-LLM está optimizado para responder a entradas multimodales generales, como imágenes, texto, audio, nubes de puntos 3D y vídeo, y su aritmética de espacio de incrustación representada por ImageBind y Point-Bind. Esto es diferente de los modelos anteriores de instrucción de lenguaje e imágenes.
• Ajuste de Eficiencia. Durante el entrenamiento, congelan el codificador de imágenes de ImageBind y ajustan los pesos parciales en LLaMA utilizando enfoques eficientes en parámetros como LoRA y ajuste de normas de sesgo. También entrenan los factores de activación inicializados en cero y la red de enlace adicional.
• Inyección inicializada en cero sin atención. Emplean un método de activación de aprendizaje para la inyección progresiva de conocimientos, que es más sencillo y eficiente, e incorporan los requisitos de multimodalidad con todos los tokens de palabras de LLaMA directamente en lugar de introducir señales de instrucción adicionales a través de capas de atención.
• Recuperación de una caché multimodal. Ofrecen un modelo de caché visual a partir de características de imagen extraídas por ImageBind, que realiza una recuperación entre modalidades para incorporar aumento para abordar la disparidad de modalidades entre el entrenamiento (una sola imagen) y la inferencia (muchas modalidades).
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónico, donde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.
Deja una respuesta