I ricercatori hanno recentemente osservato miglioramenti significativi nell'ottimizzazione delle istruzioni dei modelli linguistici di grandi dimensioni (LLM). ChatGPT e GPT-4 sono sistemi parlanti generici che obbediscono ai comandi umani nel linguaggio e nelle immagini. Tuttavia, non sono ancora replicabili a causa del vincolo di codice chiuso. Alpaca, LLaMAAdapter e gli sforzi correlati offrono di modificare LLaMA accessibile al pubblico in modelli di insegnamento della lingua utilizzando dati autogenerati in risposta a ciò. LLaVA, LLaMA-Adapter e altri integrano capacità di comprensione visiva negli LLM per la generazione condizionata dalle immagini per realizzare la personalizzazione delle istruzioni sulle immagini.
Nonostante il successo delle attuali tecniche di ottimizzazione delle istruzioni, è necessario fare di più per creare un LLM per istruzioni multimodali di ampio respiro, come testo, immagini, audio, nuvole di punti 3D e video. Gli autori di questo studio dello Shanghai Artificial Intelligence Laboratory, CUHK MMLab e vivo AI Lab introducono il modello multimodale ImageBind-LLM che segue le istruzioni, che ottimizza efficacemente LLaMA sotto la direzione dello spazio di incorporamento congiunto nell'ImageBind pre-addestrato. Come mostrato nella Figura 1, il loro ImageBind-LLM (b) può rispondere alle istruzioni di input di numerose modalità oltre alle immagini, distinte dai precedenti modelli di istruzioni visive (a), dimostrando promettenti estensibilità e capacità di generalizzazione.
Propongono specificamente di utilizzare esclusivamente i dati del linguaggio visivo per modificare le istruzioni multimodali grazie allo spazio di incorporamento multimodalità allineato alle immagini di ImageBind. Per una coppia immagine-didascalia, estraggono innanzitutto la funzionalità dell'immagine globale utilizzando il codificatore di immagini congelate di ImageBind prima di incorporare la trasformazione utilizzando una rete di associazione apprendibile. La funzionalità dell'immagine convertita viene successivamente applicata a tutti i token di parole del livello trasformatore in LLaMA, creando il contesto visivo per generare la didascalia testuale appropriata. In contrasto con l'attenzione inizializzata zero nella serie LLaMA-Adapter, il loro meccanismo di iniezione visiva è semplice e ponderato da un fattore di gating inizializzato zero addestrabile.
In questo modo efficace, man mano che la formazione procede, gli spunti didattici degli incorporamenti multimodali di ImageBind possono essere gradualmente introdotti in LLaMA senza interferire con la comprensione della lingua originale. Utilizzando ImageBind per codifiche specifiche della modalità, come testo, immagini, audio e video, ImageBind-LLM acquisisce la competenza per obbedire alle istruzioni di diverse modalità dopo la formazione di base sul linguaggio visivo. Utilizzano il codificatore 3D pre-addestrato in Point-Bind per codificare le nuvole di punti 3D di input per istruzioni nei domini 3D. Forniscono inoltre un approccio di cache visiva senza formazione per incorporare l'aumento durante l'inferenza per colmare il divario di modalità tra la formazione delle immagini e la produzione condizionata da testo, audio, 3D o video.
Il modello cache comprende milioni di caratteristiche dell'immagine nei set di dati di addestramento recuperati da ImageBind, che migliora gli incorporamenti di testo/audio/3D/video ottenendo caratteristiche visive comparabili (Tip-Adapter). Di conseguenza, le risposte verbali alle istruzioni multimodali sono di migliore qualità. Testano le capacità multimodali di seguire le istruzioni di ImageBind-LLM in varie circostanze e riscontrano costantemente prestazioni migliori.
Nel complesso, il loro ImageBind-LLM dimostra le quattro qualità elencate di seguito.
• Istruzioni con molte modalità. ImageBind-LLM è ottimizzato per rispondere a input multimodali generali, come immagini, testo, audio, nuvole di punti 3D e video, e alla relativa aritmetica dello spazio di incorporamento rappresentata da ImageBind e Point-Bind. Questo è diverso dai precedenti modelli di istruzione basati su linguaggio e immagini.
• Ottimizzazione dell'efficienza. Durante la formazione, congelano il codificatore di immagini di ImageBind e regolano i pesi parziali in LLaMA utilizzando approcci efficienti in termini di parametri come LoRA e la regolazione delle norme di bias. Inoltre addestrano i fattori di gating inizializzati a zero e la rete di collegamento extra.
• Iniezione inizializzata zero senza attenzione. Impiegano un metodo di gating apprendibile per l'iniezione progressiva di conoscenza, che è più semplice ed efficiente, e incorporano direttamente i requisiti di multimodalità con tutti i token di parole di LLaMA invece di introdurre segnali di istruzione aggiuntivi attraverso i livelli di attenzione.
• Recupero da una cache multimodale. Offrono un modello di cache visiva dalle caratteristiche dell'immagine estratte da ImageBind, che esegue il recupero multimodalità per incorporare l'aumento per affrontare la disparità di modalità tra training (immagine singola) e inferenza (molte modalità).
Dai un'occhiata a Carta E Github. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti il nostro subReddit da 30k+ ML, Oltre 40.000 comunità Facebook, Canale Discordia, E Newsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.
Se ti piace il nostro lavoro, adorerai la nostra newsletter..
Aneesh Tickoo è una stagista consulente presso MarktechPost. Attualmente sta conseguendo la laurea in scienza dei dati e intelligenza artificiale presso l'Indian Institute of Technology (IIT), Bhilai. Trascorre la maggior parte del suo tempo lavorando su progetti volti a sfruttare la potenza dell'apprendimento automatico. Il suo interesse di ricerca è l'elaborazione delle immagini ed è appassionato di costruire soluzioni attorno ad essa. Ama entrare in contatto con le persone e collaborare a progetti interessanti.
lascia un commento