Des chercheurs chinois présentent ImageBind-LLM : une méthode de réglage des instructions multimodales des grands modèles de langage (LLM) via ImageBind


Les chercheurs ont récemment constaté des améliorations significatives dans le réglage des instructions des grands modèles de langage (LLM). ChatGPT et GPT-4 sont des systèmes parlants à usage général qui obéissent aux commandes humaines en termes de langage et de visuels. Cependant, ils restent irréplicables en raison de la contrainte de source fermée. Alpaca, LLaMAAdapter et les efforts associés proposent de modifier le LLaMA accessible au public en modèles d'enseignement des langues en utilisant des données auto-générées en réponse à cela. LLaVA, LLaMA-Adapter et d'autres intègrent des capacités de compréhension visuelle dans les LLM pour la génération conditionnée par l'image afin de réaliser l'adaptation des instructions d'image. 

Malgré le succès des techniques actuelles de réglage des instructions, il reste encore beaucoup à faire pour créer un LLM pour des instructions multimodales étendues, telles que le texte, l'image, l'audio, les nuages de points 3D et la vidéo. Les auteurs de cette étude du laboratoire d'intelligence artificielle de Shanghai, du CUHK MMLab et du vivo AI Lab présentent le modèle de suivi d'instructions multimodalité ImageBind-LLM, qui affine efficacement LLaMA sous la direction de l'espace d'intégration commun dans ImageBind pré-entraîné. Comme le montre la figure 1, leur ImageBind-LLM (b) peut répondre à des instructions d'entrée de nombreuses modalités en plus des images, distinctes des modèles d'instructions visuelles antérieurs (a), démontrant une extensibilité et une capacité de généralisation prometteuses.

Ils proposent spécifiquement d'utiliser uniquement les données du langage de vision pour peaufiner l'instruction multimodale grâce à l'espace d'intégration multimodale aligné sur l'image d'ImageBind. Pour une paire image-légende, ils extraient d'abord la fonctionnalité d'image globale à l'aide de l'encodeur d'image gelée d'ImageBind avant d'intégrer la transformation à l'aide d'un réseau de liaison apprenable. La fonctionnalité d'image convertie est ensuite appliquée à tous les jetons de mots de la couche de transformateur dans LLaMA, créant ainsi le contexte visuel permettant de générer la légende textuelle appropriée. Contrairement à l'attention initialisée à zéro de la série LLaMA-Adapter, leur mécanisme d'injection visuelle est simple et pondéré par un facteur de déclenchement initialisé à zéro pouvant être entraîné. 

De cette manière efficace, au fur et à mesure que la formation progresse, les instructions des intégrations multimodales d'ImageBind peuvent être progressivement introduites dans LLaMA sans interférer avec la compréhension du langage d'origine. En utilisant ImageBind pour les encodages spécifiques à des modalités, tels que le texte, l'image, l'audio et la vidéo, leur ImageBind-LLM acquiert la compétence nécessaire pour obéir aux instructions de diverses modalités après la formation de base en langage visuel. Ils utilisent l'encodeur 3D pré-entraîné dans Point-Bind pour encoder les nuages de points 3D d'entrée pour les instructions dans les domaines 3D. Ils fournissent également une approche de cache visuel sans formation pour intégrer l'augmentation pendant l'inférence afin de combler l'écart de modalité entre la formation d'images et la production de texte, audio, 3D ou vidéo conditionnée. 

Ob1JoelWPAq597f6aq4u02kV eWixiRJAZcWIDG0WeJQ31ZXZOVpIWaFIATxKIZ7qboqWT3g3byD7nd1hYuFPFIRIRTxJUYDEuNZrgUPtUTKLgpzS69KGZxPHIRsP717eH 7zJFYr0Zf z0N4hV6 qI
Figure 1 compare nos modèles d'instruction multimodalité et visuelle ImageBind-LLM. ImageBind-LLM effectue un réglage universel des instructions multimodales pour l'image, le texte, l'audio, la vidéo et la 3D, contrairement aux efforts antérieurs [1-3] qui sont exclusivement conditionnés sur la modalité d'image.

Le modèle de cache comprend des millions de fonctionnalités d'image dans les ensembles de données de formation récupérés par ImageBind, qui améliore les intégrations texte/audio/3D/vidéo en obtenant des caractéristiques visuelles comparables (Tip-Adapter). De ce fait, les réponses verbales aux instructions multimodales sont de meilleure qualité. Ils testent les capacités de suivi d'instructions multimodales d'ImageBind-LLM dans diverses circonstances et constatent systématiquement qu'elles fonctionnent mieux. 

Dans l'ensemble, leur ImageBind-LLM démontre les quatre qualités énumérées ci-dessous.

• Instructions avec de nombreux modes. ImageBind-LLM est optimisé pour répondre aux entrées multimodales générales, telles que l'image, le texte, l'audio, les nuages de points 3D et la vidéo, ainsi que leur arithmétique d'espace d'intégration représentée par ImageBind et Point-Bind. Ceci est différent des modèles antérieurs d’enseignement du langage et de l’image. 

• Réglage de l'efficacité. Pendant la formation, ils gèlent l'encodeur d'image d'ImageBind et ajustent les poids partiels dans LLaMA à l'aide d'approches efficaces en termes de paramètres telles que LoRA et le réglage des normes de biais. Ils entraînent également les facteurs de déclenchement initialisés à zéro et le réseau de liaison supplémentaire. 

• Injection initialisée à zéro sans attention. Ils utilisent une méthode de déclenchement apprenable pour l'injection progressive de connaissances, qui est plus simple et plus efficace, et intègrent directement les exigences de multimodalité avec tous les jetons de mots de LLaMA au lieu d'introduire des signaux d'instruction supplémentaires via les couches d'attention. 

• Récupération à partir d'un cache multimodal. Ils proposent un modèle de cache visuel à partir des caractéristiques de l'image extraites par ImageBind, qui effectue une récupération multimodale pour l'intégration de l'augmentation afin de remédier à la disparité des modalités entre la formation (image unique) et l'inférence (plusieurs modalités).


Vérifiez Papier et GitHubTout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrire notre SubReddit de plus de 30 000 ML, Plus de 40 000 communautés Facebook, Chaîne Discorde, et Courriel, où nous partageons les dernières nouvelles en matière de recherche sur l'IA, des projets intéressants en matière d'IA et bien plus encore.

Si vous aimez notre travail, vous allez adorer notre newsletter.


Aneesh PP

Aneesh Tickoo est stagiaire-conseil chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et intelligence artificielle à l'Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l'apprentissage automatique. Son intérêt de recherche est le traitement de l'image et il est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.




Lien source

Laisser une réponse

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

fr_FRFrench