Vorab trainierte Large Language Models (LLMs) wie GPT-3 haben nachweislich außergewöhnliche Fähigkeiten zum Verstehen und Beantworten von Fragen von Menschen, zur Unterstützung bei Codierungsaufgaben und mehr. Allerdings führen sie häufig zu Ergebnissen, die sich von denen unterscheiden, die den Menschen gefallen. In der Vergangenheit haben Forscher versucht, dieses Problem zu lösen, indem sie Informationen über menschliche Vorlieben sammelten und dann zuvor trainierte Modelle mithilfe von Reinforcement Learning oder Instruktionsoptimierung anpassten, was eine Feinabstimmungsphase mit sich brachte. Es ist attraktiver, eingefrorene LLMs, die noch einem zusätzlichen Training unterzogen werden müssen, auszurichten, ohne dass zusätzliche Daten erforderlich sind.
Kürzlich hat ein Forscherteam herausgefunden, dass nicht ausgerichtete LLMs durch einen Selbstverbesserungsprozess unter Einbeziehung von Selbstbewertungs- und Rückspulmechanismen direkt Antworten erzeugen können, die den menschlichen Vorlieben entsprechen. Im Interesse der KI-Sicherheit haben sie Rewindable Auto-regressive INference (RAIN) eingeführt, eine einzigartige Inferenztechnik, die es vorab trainierten LLMs ermöglicht, ihren eigenen generierten Text zu bewerten und die Bewertungsergebnisse zu verwenden, um das Zurückspulen und die Vorwärtsgenerierung zu steuern.
RAIN zeichnet sich dadurch aus, dass es läuft, ohne dass weitere Daten für die Modellausrichtung erforderlich sind. Dadurch entfällt die Notwendigkeit von Parameteraktualisierungen, Gradientenberechnungen oder Schulungen. Das Modell erhält durch eine Eingabeaufforderung mit fester Vorlage die Richtung, an der die menschlichen Präferenzen während der Selbstbewertungsphase ausgerichtet werden sollen, wodurch die Notwendigkeit entfällt, die anfängliche Abfrage wiederholt anzupassen.
Die experimentellen Ergebnisse, bewertet durch das GPT-4-Modell und menschliche Gutachter, zeigten, wie erfolgreich RAIN ist. Mithilfe des HH-Datensatzes hält RAIN beispielsweise die Hilfsbereitschaftsrate konstant und erhöht gleichzeitig die Harmlosigkeitsrate von LLaMA 30B im Vergleich zur Vanilla-Inferenz dramatisch von 82% auf 97%. Das Team hat mitgeteilt, dass RAIN sogar eine neue Basis für die Verteidigung geschaffen hat, indem es die Angriffserfolgsrate von 94% auf 19% gesenkt hat, wenn Vicuna 33B das Ziel eines bemerkenswerten feindlichen Angriffs ist (LLM-ATTACKS).
RAIN bietet eine Reihe von Vorteilen gegenüber derzeit verwendeten Methoden zur Ausrichtung großer Sprachmodelle (LLMs) –
- Universalität: Der RAIN-Ansatz ist anpassungsfähig und kann für eine Vielzahl sprachgenerierender Aufgaben eingesetzt werden. Es passt perfekt zum autoregressiven Inferenzparadigma, das für viele LLMs die Norm ist. Dies bedeutet, dass RAIN hochgradig anpassbar und benutzerfreundlich ist und schnell in die meisten aktuellen LLMs integriert werden kann.
- Ausrichtung mit eingefrorenen Gewichten: RAIN erfordert im Gegensatz zu einigen anderen Ausrichtungsstrategien wie RLHF nicht die Pflege zusätzlicher Modelle oder die Speicherung von Gradientendaten und Rechennetzwerken. Der dadurch entstehende minimale Speicheraufwand ist vergleichbar mit dem einer einfachen autoregressiven Inferenz. RAIN ist aufgrund seiner einfachen Implementierung und seines speichereffizienten Designs eine realistische Option für den Abgleich von LLMs mit eingefrorenen Gewichten, wodurch ressourcenintensive Feinabstimmungsverfahren entfallen.
- Lernfrei: RAIN verlässt sich nicht auf beschriftete oder unbeschriftete Daten jeglicher Art oder auf menschliche Anmerkungen. Es erfordert keine großen Informationen oder Schulungen, da es lernfrei funktioniert. RAIN verbessert die Ausrichtungsleistung bei einer Reihe von Aufgaben erheblich und macht LLMs widerstandsfähiger gegen feindliche, schnelle Angriffe. Im Vergleich zu einer bekannten gegnerischen Angriffsmethode wird die Erfolgsquote eines Angriffs deutlich gesenkt, was seine Wirksamkeit als Abwehr gegen solche Angriffe unter Beweis stellt.
Zusammenfassend lässt sich sagen, dass diese Studie RAIN als eine Technik zur Anpassung von LLMs an menschliche Vorlieben eingeführt hat, ohne dass zusätzliche Informationen oder mühsame Feinabstimmungen erforderlich sind. Dies wird dadurch erreicht, dass LLMs ihre eigenen Ergebnisse bewerten und verbessern können, was letztendlich zu koordinierteren und sichereren KI-generierten Reaktionen führt.
Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 30k+ ML SubReddit, Über 40.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.
Tanya Malhotra studiert im letzten Jahr an der University of Petroleum & Energy Studies in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Data-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.
Hinterlasse eine Antwort