Los modelos de lenguaje grande (LLM) previamente entrenados, como GPT-3, han demostrado tener aptitudes extraordinarias para comprender y responder preguntas de humanos, ayudar con tareas de codificación y más. Sin embargo, con frecuencia generan resultados que difieren de lo que le gusta a la gente. En el pasado, los investigadores han intentado resolver este problema recopilando información sobre las preferencias humanas y luego alineando modelos previamente entrenados mediante el uso de aprendizaje por refuerzo o ajuste de instrucciones, lo que implica una etapa de ajuste. Es más atractivo alinear los LLM congelados, aquellos que aún no han recibido capacitación adicional, sin necesidad de datos adicionales.
Recientemente, un equipo de investigadores ha descubierto que los LLM no alineados pueden producir directamente respuestas que coincidan con las preferencias humanas a través de un proceso de superación personal al incluir mecanismos de autoevaluación y rebobinado. En aras de la seguridad de la IA, han introducido la INferencia autorregresiva rebobinable (RAIN), una técnica de inferencia única que permite a los LLM previamente capacitados evaluar su propio texto generado y utilizar los resultados de la evaluación para dirigir el rebobinado hacia atrás y la generación hacia adelante.
RAIN se destaca por su capacidad de ejecutarse sin requerir más datos para la alineación del modelo. Elimina la necesidad de actualizaciones de parámetros, cálculo de gradientes o capacitación. El modelo obtiene instrucciones sobre qué preferencias humanas alinear durante la fase de autoevaluación a través de un mensaje de plantilla fija, obviando la necesidad de ajustar la consulta inicial repetidamente.
Los resultados experimentales, evaluados por el modelo GPT-4 y evaluadores humanos, mostraron el éxito de RAIN. Por ejemplo, al utilizar el conjunto de datos de HH, RAIN mantiene constante la tasa de utilidad y al mismo tiempo aumenta drásticamente la tasa de inocuidad de LLaMA 30B en comparación con la inferencia básica, pasando de 82% a 97%. El equipo compartió que RAIN incluso estableció una nueva línea de base para la defensa al reducir la tasa de éxito del asalto de 94% a 19% cuando Vicuña 33B es el objetivo de un ataque hostil notable (LLM-ATTACKS).
RAIN ofrece una serie de beneficios sobre los métodos utilizados actualmente para alinear modelos de lenguajes grandes (LLM):
- Universalidad: El enfoque RAIN es adaptable y puede usarse para una variedad de trabajos de generación de lenguaje. Encaja perfectamente con el paradigma de inferencia autorregresiva, que es la norma para muchos LLM. Esto significa que RAIN es altamente personalizable y fácil de usar y puede integrarse rápidamente en la mayoría de los LLM actuales.
- Alineación con pesos congelados: RAIN no requiere el mantenimiento de modelos adicionales ni el almacenamiento de datos de gradiente y redes computacionales, a diferencia de otras estrategias de alineación como RLHF. La sobrecarga mínima de memoria producida por esto es comparable a la de una simple inferencia autorregresiva. RAIN es una opción realista para alinear LLM con pesos congelados debido a su implementación simple y diseño eficiente en memoria, lo que elimina los procedimientos de ajuste que consumen muchos recursos.
- Sin aprendizaje: RAIN no se basa en ningún tipo de datos etiquetados o no etiquetados ni en anotaciones humanas. No requiere mucha información o capacitación porque funciona sin aprendizaje. RAIN mejora considerablemente el rendimiento de la alineación en una variedad de tareas y hace que los LLM sean más resistentes a ataques rápidos y hostiles. Reduce significativamente la tasa de éxito del asalto cuando se compara con un método de ataque adversario conocido, lo que demuestra su potencia como defensa contra tales ataques.
En conclusión, este estudio ha introducido RAIN como una técnica para ajustar los LLM a las preferencias humanas sin necesidad de información adicional ni ajustes laboriosos. Esto se logra permitiendo a los LLM evaluar y mejorar sus propios resultados, lo que en última instancia da como resultado respuestas generadas por IA más coordinadas y seguras.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónico, donde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.
Deja una respuesta