Les grands modèles linguistiques peuvent-ils s’auto-évaluer en termes de sécurité ? Découvrez RAIN : une nouvelle méthode d'inférence transformant l'alignement et la défense de l'IA sans réglage fin


Les grands modèles de langage (LLM) pré-entraînés, comme GPT-3, se sont avérés avoir des aptitudes extraordinaires pour comprendre et répondre aux questions des humains, aider aux tâches de codage, et bien plus encore. Cependant, ils génèrent souvent des résultats qui diffèrent de ce que les gens souhaitent. Dans le passé, les chercheurs ont tenté de résoudre ce problème en rassemblant des informations sur les préférences humaines, puis en alignant des modèles préalablement formés grâce à l’apprentissage par renforcement ou au réglage des instructions, ce qui impliquait une étape de réglage fin. Il est plus intéressant d’aligner les LLM gelés, ceux qui n’ont pas encore suivi de formation supplémentaire, sans nécessiter de données supplémentaires. 

Récemment, une équipe de chercheurs a découvert que les LLM non alignés peuvent directement produire des réponses qui correspondent aux préférences humaines grâce à un processus d'auto-amélioration en incluant des mécanismes d'auto-évaluation et de rembobinage. Dans l'intérêt de la sécurité de l'IA, ils ont introduit Rewindable Auto-regressive INference (RAIN), une technique d'inférence unique qui permet aux LLM pré-entraînés d'évaluer leur propre texte généré et d'utiliser les résultats de l'évaluation pour diriger le rembobinage vers l'arrière et la génération vers l'avant.

RAIN se distingue par sa capacité à s'exécuter sans nécessiter de données supplémentaires pour l'alignement du modèle. Il supprime la nécessité de mises à jour des paramètres, de calcul de gradient ou de formation. Le modèle obtient une direction sur laquelle les préférences humaines doivent s'aligner pendant la phase d'auto-évaluation grâce à une invite à modèle fixe, évitant ainsi la nécessité d'ajuster la requête initiale à plusieurs reprises.

Les résultats expérimentaux, évalués par le modèle GPT-4 et des évaluateurs humains, ont montré le succès de RAIN. Par exemple, en utilisant l'ensemble de données HH, RAIN maintient le taux d'utilité constant tout en augmentant considérablement le taux d'innocuité de LLaMA 30B par rapport à l'inférence vanille, passant de 82% à 97%. L'équipe a partagé que RAIN a même établi une nouvelle base de défense en abaissant le taux de réussite des assauts de 94% à 19% lorsque Vicuna 33B est la cible d'une attaque hostile notable (LLM-ATTACKS).

RAIN offre un certain nombre d'avantages par rapport aux méthodes actuellement utilisées pour aligner les grands modèles linguistiques (LLM) - 

  1. Universalité : L'approche RAIN est adaptable et peut être utilisée pour une variété d'emplois générateurs de langues. Cela s’inscrit parfaitement dans le paradigme d’inférence auto-régressive, qui est la norme pour de nombreux LLM. Cela signifie que RAIN est hautement personnalisable et convivial et peut être rapidement intégré dans la plupart des LLM actuels.
  1. Alignement avec les poids gelés : RAIN ne nécessite pas la maintenance de modèles supplémentaires ou le stockage de données de gradient et de réseaux informatiques, contrairement à certaines autres stratégies d'alignement comme RLHF. La surcharge de mémoire minimale ainsi produite est comparable à celle d’une simple inférence auto-régressive. RAIN est une option réaliste pour aligner les LLM avec des poids gelés en raison de sa mise en œuvre simple et de sa conception économe en mémoire, éliminant les procédures de réglage fin gourmandes en ressources.
  1. Sans apprentissage : RAIN ne s'appuie sur aucun type de données étiquetées ou non, ni sur des annotations humaines. Il ne nécessite pas beaucoup d'informations ou de formation car il fonctionne sans apprentissage. RAIN améliore considérablement les performances d’alignement dans une gamme de tâches et rend les LLM plus résistants aux attaques hostiles et rapides. Il réduit considérablement le taux de réussite des assauts lorsqu’il est comparé à une méthode d’attaque adverse bien connue, démontrant ainsi sa puissance en tant que défense contre de telles attaques.

En conclusion, cette étude a présenté RAIN comme technique permettant d’ajuster les LLM aux préférences humaines sans avoir besoin d’informations supplémentaires ni d’ajustements laborieux. Ceci est accompli en permettant aux LLM d’évaluer et d’améliorer leurs propres résultats, ce qui aboutit finalement à des réponses générées par l’IA plus coordonnées et plus sécurisées.


Vérifiez PapierTout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrire notre SubReddit de plus de 30 000 ML, Plus de 40 000 communautés Facebook, Chaîne Discorde, et Courriel, où nous partageons les dernières nouvelles en matière de recherche sur l'IA, des projets intéressants en matière d'IA et bien plus encore.

Si vous aimez notre travail, vous allez adorer notre newsletter.


20220308 160704 1 Tanya

Tanya Malhotra est une dernière année de premier cycle de l'Université des études sur le pétrole et l'énergie de Dehradun, poursuivant un BTech en ingénierie informatique avec une spécialisation en intelligence artificielle et apprentissage automatique.
Elle est passionnée par la science des données, dotée d'une bonne pensée analytique et critique, ainsi que d'un vif intérêt pour l'acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.




Lien source

Laisser une réponse

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

fr_FRFrench