I modelli LLM (Large Language Models) pre-addestrati, come GPT-3, hanno dimostrato di avere attitudini straordinarie nel comprendere e rispondere alle domande degli esseri umani, nell'aiutare con le attività di codifica e altro ancora. Tuttavia, spesso generano risultati che differiscono da ciò che piace alle persone. In passato, i ricercatori hanno tentato di risolvere questo problema raccogliendo informazioni sulle preferenze umane e quindi allineando modelli precedentemente addestrati attraverso l’uso dell’apprendimento per rinforzo o della messa a punto delle istruzioni, che comporta una fase di messa a punto. È più interessante allineare gli LLM congelati, quelli che devono ancora subire una formazione aggiuntiva, senza la necessità di dati aggiuntivi.
Recentemente, un team di ricercatori ha scoperto che gli LLM non allineati possono produrre direttamente risposte che corrispondono alle preferenze umane attraverso un processo di auto-miglioramento includendo meccanismi di autovalutazione e riavvolgimento. Nell'interesse della sicurezza dell'intelligenza artificiale, hanno introdotto Rewindable Auto-regressive INference (RAIN), una tecnica di inferenza unica che consente agli LLM pre-addestrati di valutare il proprio testo generato e utilizzare i risultati della valutazione per dirigere il riavvolgimento all'indietro e la generazione in avanti.
RAIN si distingue per la sua capacità di funzionare senza richiedere ulteriori dati per l'allineamento del modello. Elimina la necessità di aggiornamenti dei parametri, calcolo del gradiente o addestramento. Il modello ottiene la direzione su cui allineare le preferenze umane durante la fase di autovalutazione attraverso un prompt a modello fisso, ovviando alla necessità di modificare ripetutamente la query iniziale.
I risultati sperimentali, valutati dal modello GPT-4 e da valutatori umani, hanno mostrato il successo di RAIN. Ad esempio, utilizzando il set di dati HH, RAIN mantiene costante il tasso di utilità aumentando notevolmente il tasso di innocuità di LLaMA 30B rispetto all'inferenza vanilla, passando da 82% a 97%. Il team ha condiviso che RAIN ha persino stabilito una nuova linea di base per la difesa abbassando il tasso di successo dell'assalto da 94% a 19% quando Vicuna 33B è il bersaglio di un notevole attacco ostile (LLM-ATTACKS).
RAIN offre una serie di vantaggi rispetto ai metodi attualmente utilizzati per allineare i modelli linguistici di grandi dimensioni (LLM):
- Universalità: l’approccio RAIN è adattabile e può essere utilizzato per una varietà di lavori che generano linguaggio. Si adatta perfettamente al paradigma di inferenza autoregressiva, che è la norma per molti LLM. Ciò significa che RAIN è altamente personalizzabile e facile da usare e può essere rapidamente integrato nella maggior parte degli LLM attuali.
- Allineamento con pesi congelati: RAIN non richiede il mantenimento di modelli aggiuntivi o la memorizzazione di dati di gradiente e reti computazionali, a differenza di alcune altre strategie di allineamento come RLHF. L'overhead minimo di memoria prodotto da questo è paragonabile a quello di una semplice inferenza autoregressiva. RAIN è un'opzione realistica per allineare LLM con pesi congelati grazie alla sua semplice implementazione e alla sua progettazione efficiente in termini di memoria, eliminando procedure di messa a punto ad alta intensità di risorse.
- Senza apprendimento: RAIN non si basa su alcun tipo di dati etichettati o non etichettati o su annotazioni umane. Non richiede molte informazioni o formazione perché funziona senza apprendimento. RAIN migliora notevolmente le prestazioni di allineamento in una serie di attività e rende gli LLM più resistenti agli attacchi ostili e tempestivi. Riduce significativamente il tasso di successo dell'assalto se valutato rispetto a un noto metodo di attacco dell'avversario, dimostrando la sua potenza come difesa contro tali attacchi.
In conclusione, questo studio ha introdotto RAIN come tecnica per adattare gli LLM alle preferenze umane senza la necessità di informazioni aggiuntive o laboriose messe a punto. Ciò si ottiene consentendo agli LLM di valutare e migliorare i propri risultati, risultando in definitiva in risposte più coordinate e sicure generate dall'intelligenza artificiale.
Dai un'occhiata a Carta. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscriverti il nostro subReddit da 30k+ ML, Oltre 40.000 comunità Facebook, Canale Discordia, E Newsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.
Se ti piace il nostro lavoro, adorerai la nostra newsletter..
Tanya Malhotra è una studentessa dell'ultimo anno presso l'Università degli studi sul petrolio e sull'energia, Dehradun, che persegue BTech in ingegneria informatica con una specializzazione in intelligenza artificiale e apprendimento automatico.
È un'appassionata di scienza dei dati con un buon pensiero analitico e critico, insieme a un ardente interesse nell'acquisizione di nuove competenze, nella guida di gruppi e nella gestione del lavoro in modo organizzato.
lascia un commento