Mohou velké jazykové modely samohodnotit bezpečnost? Seznamte se s RAIN: Nová metoda odvození transformující zarovnání a obranu AI bez dolaďování


Předtrénované modely velkých jazyků (LLM), jako je GPT-3, prokázaly mimořádné schopnosti porozumět lidským otázkám a odpovídat na ně, pomáhat s kódováním a podobně. Často však generují výsledky, které se liší od toho, co se lidem líbí. V minulosti se výzkumníci pokoušeli tento problém vyřešit shromažďováním informací o lidských preferencích a poté srovnáváním dříve trénovaných modelů pomocí zesíleného učení nebo ladění instrukcí, což znamenalo fázi jemného doladění. Je atraktivnější sladit zmrazené LLM, které ještě musí projít dalším školením, bez požadavku na další data. 

Nedávno tým výzkumníků zjistil, že nezařazené LLM mohou přímo vytvářet odpovědi, které odpovídají lidským preferencím prostřednictvím procesu sebezdokonalování tím, že zahrnují mechanismy sebehodnocení a převíjení. V zájmu bezpečnosti umělé inteligence zavedli Rewindable Auto-regressive INference (RAIN), unikátní inferenční techniku, která umožňuje předem vycvičeným LLM posoudit jejich vlastní generovaný text a použít výsledky hodnocení k přímému zpětnému převíjení a generování dopředu.

RAIN je pozoruhodný svou schopností běžet bez potřeby dalších dat pro zarovnání modelu. Odstraňuje požadavek na aktualizaci parametrů, výpočet gradientu nebo školení. Model získává směr, podle kterého se mají přizpůsobit lidské preference během fáze sebehodnocení, prostřednictvím výzvy s pevnou šablonou, čímž se vyhne požadavku na opakované úpravy počátečního dotazu.

Experimentální výsledky, hodnocené modelem GPT-4 a lidskými posuzovateli, ukázaly, jak úspěšný je RAIN. Například pomocí datové sady HH udržuje RAIN míru užitečnosti konstantní a zároveň dramaticky zvyšuje míru neškodnosti LLaMA 30B ve srovnání s vanilla inferencí, a to z 82% na 97%. Tým sdílel, že RAIN dokonce vytvořil novou základní linii obrany snížením úspěšnosti útoku z 94% na 19%, když je Vicuna 33B cílem pozoruhodného nepřátelského útoku (LLM-ATTACKS).

RAIN nabízí řadu výhod oproti aktuálně používaným metodám zarovnání velkých jazykových modelů (LLM) – 

  1. Univerzálnost: Přístup RAIN je přizpůsobitelný a lze jej použít pro různé úlohy generující jazyk. Dokonale zapadá do paradigmatu autoregresivní inference, které je normou pro mnoho LLM. To znamená, že RAIN je vysoce přizpůsobitelný a uživatelsky přívětivý a lze jej rychle integrovat do většiny současných LLM.
  1. Zarovnání s Frozen Weights: RAIN nevyžaduje údržbu dalších modelů nebo ukládání gradientních dat a výpočetních sítí, na rozdíl od některých jiných strategií zarovnání, jako je RLHF. Minimální paměťová režie, kterou tím vzniká, je srovnatelná s jednoduchou autoregresivní inferencí. RAIN je realistickou možností pro sladění LLM se zmrazenými váhami díky své jednoduché implementaci a paměťově efektivnímu designu, což eliminuje procedury jemného ladění náročné na zdroje.
  1. Bez učení: RAIN se nespoléhá na žádný typ označených nebo neoznačených dat ani na lidské anotace. Nevyžaduje mnoho informací ani školení, protože funguje bez učení. RAIN výrazně zvyšuje výkon zarovnání napříč řadou úloh a činí LLM odolnější vůči nepřátelským a rychlým útokům. Výrazně snižuje úspěšnost útoků, když je hodnocena proti známé metodě nepřátelského útoku, což prokazuje svou sílu jako obrana proti takovým útokům.

Závěrem lze říci, že tato studie představila RAIN jako techniku pro přizpůsobení LLM lidským preferencím bez potřeby dalších informací nebo pracného dolaďování. Toho je dosaženo tím, že LLM mohou posuzovat a zlepšovat své vlastní výstupy, což v konečném důsledku vede ke koordinovanějším a bezpečnějším reakcím generovaným AI.


Podívejte se na PapírVeškerá zásluha za tento výzkum patří výzkumníkům na tomto projektu. Také se nezapomeňte připojit náš 30k+ ML SubReddit, 40 000+ Facebook komunita, Discord Channel, a E-mailový newsletter, kde sdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.

Pokud se vám naše práce líbí, náš newsletter se vám bude líbit..


20220308 160704 1 Táňa

Tanya Malhotra studuje poslední rok na Univerzitě ropných a energetických studií v Dehradunu, kde studuje BTech v počítačovém inženýrství se specializací na umělou inteligenci a strojové učení.
Je nadšencem pro datovou vědu s dobrým analytickým a kritickým myšlením, spolu s horlivým zájmem o získávání nových dovedností, vedení skupin a organizované řízení práce.




Odkaz na zdroj

zanechte odpověď

Vaše e-mailová adresa nebude zveřejněna. Povinná pole jsou označena *

Můžete použít tyto HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

cs_CZCzech