Bolehkah Model Bahasa Besar Menilai Sendiri untuk Keselamatan? Temui RAIN: Kaedah Inferens Novel Mengubah Penjajaran dan Pertahanan AI Tanpa Penalaan


Model Bahasa Besar (LLM) yang telah dilatih sebelumnya, seperti GPT-3, telah terbukti mempunyai kebolehan yang luar biasa untuk memahami dan menjawab soalan daripada manusia, membantu tugasan pengekodan dan banyak lagi. Walau bagaimanapun, mereka sering menjana hasil yang berbeza daripada apa yang orang suka. Pada masa lalu, penyelidik telah cuba menyelesaikan masalah ini dengan mengumpul maklumat tentang pilihan manusia dan kemudian menyelaraskan model yang dilatih sebelum ini melalui penggunaan pembelajaran pengukuhan atau penalaan arahan, yang melibatkan peringkat penalaan halus. Adalah lebih menarik untuk menyelaraskan LLM beku, yang masih belum menjalani latihan tambahan, tanpa memerlukan data tambahan. 

Baru-baru ini, satu pasukan penyelidik telah mendapati bahawa LLM yang tidak sejajar boleh secara langsung menghasilkan balasan yang sepadan dengan pilihan manusia melalui proses pembaikan diri dengan memasukkan mekanisme penilaian kendiri dan gulung semula. Demi kepentingan keselamatan AI, mereka telah memperkenalkan INferens Auto-regresif Boleh Diputar Semula (RAIN), teknik inferens unik yang membolehkan LLM yang telah terlatih menilai teks yang dijana mereka sendiri dan menggunakan hasil penilaian untuk mengarahkan penjanaan gulung semula ke belakang dan ke hadapan.

RAIN terkenal kerana keupayaannya untuk berjalan tanpa memerlukan sebarang data lanjut untuk penjajaran model. Ia menghapuskan keperluan untuk kemas kini parameter, pengiraan kecerunan atau latihan. Model memperoleh arah yang mana keutamaan manusia untuk diselaraskan semasa fasa penilaian kendiri melalui gesaan templat tetap, mengelakkan keperluan untuk melaraskan pertanyaan awal berulang kali.

Hasil eksperimen, yang dinilai oleh model GPT-4 dan penilai manusia, menunjukkan betapa berjayanya RAIN. Sebagai contoh, menggunakan set data HH, RAIN mengekalkan kadar bantuan tetap sambil meningkatkan secara mendadak kadar tidak berbahaya LLaMA 30B berbanding inferens vanila, daripada 82% kepada 97%. Pasukan itu telah berkongsi bahawa RAIN malah mewujudkan garis dasar baharu untuk pertahanan dengan menurunkan kadar kejayaan serangan daripada 94% kepada 19% apabila Vicuna 33B menjadi sasaran serangan musuh yang ketara (LLM-ATTACKS).

RAIN menawarkan beberapa faedah berbanding kaedah yang digunakan pada masa ini untuk menjajarkan Model Bahasa Besar (LLM) - 

  1. Kesejagatan: Pendekatan RAIN boleh disesuaikan dan boleh digunakan untuk pelbagai pekerjaan yang menjana bahasa. Ia sangat sesuai dengan paradigma inferens auto-regresif, yang merupakan norma untuk kebanyakan LLM. Ini bermakna RAIN sangat boleh disesuaikan dan mesra pengguna dan boleh disepadukan dengan cepat ke dalam kebanyakan LLM semasa.
  1. Penjajaran dengan Berat Beku: RAIN tidak memerlukan penyelenggaraan model tambahan atau penyimpanan data kecerunan dan rangkaian pengiraan, berbeza dengan beberapa strategi penjajaran lain seperti RLHF. Overhed memori minimum yang dihasilkan oleh ini adalah setanding dengan inferens auto-regresif mudah. RAIN ialah pilihan yang realistik untuk menjajarkan LLM dengan pemberat beku kerana pelaksanaannya yang mudah dan reka bentuk yang cekap memori, menghapuskan prosedur penalaan halus intensif sumber.
  1. Tanpa pembelajaran: RAIN tidak bergantung pada sebarang jenis data berlabel atau tidak berlabel atau pada anotasi manusia. Ia tidak memerlukan banyak maklumat atau latihan kerana ia beroperasi dengan cara tanpa pembelajaran. RAIN meningkatkan prestasi penjajaran merentasi pelbagai tugas dan menjadikan LLM lebih tahan terhadap serangan yang bermusuhan dan segera. Ia merendahkan kadar kejayaan serangan dengan ketara apabila dinilai terhadap kaedah serangan musuh yang terkenal, menunjukkan potensinya sebagai pertahanan terhadap serangan sedemikian.

Kesimpulannya, kajian ini telah memperkenalkan RAIN sebagai teknik untuk menyesuaikan LLM dengan pilihan manusia tanpa memerlukan maklumat tambahan atau penalaan halus yang susah payah. Ini dicapai dengan membenarkan LLM menilai dan meningkatkan output mereka sendiri, akhirnya menghasilkan respons yang dijana AI yang lebih terkoordinasi dan selamat.


Semak kertasSemua Kredit Untuk Penyelidikan Ini Ditujukan Kepada Penyelidik Projek Ini. Juga, jangan lupa untuk menyertai 30k+ ML SubReddit kami, 40k+ Komuniti Facebook, Saluran Discord, dan E-mel Surat Berita, tempat kami berkongsi berita penyelidikan AI terkini, projek AI yang hebat dan banyak lagi.

Jika anda menyukai kerja kami, anda akan menyukai surat berita kami..


20220308 160704 1 Tanya

Tanya Malhotra ialah sarjana tahun akhir dari Universiti Petroleum & Pengajian Tenaga, Dehradun, mengikuti BTech dalam Kejuruteraan Sains Komputer dengan pengkhususan dalam Kecerdasan Buatan dan Pembelajaran Mesin.
Beliau adalah seorang peminat Sains Data dengan pemikiran analitikal dan kritis yang baik, bersama-sama dengan minat yang mendalam dalam memperoleh kemahiran baharu, memimpin kumpulan dan mengurus kerja secara teratur.




Pautan sumber

Tinggalkan pesanan

Alamat e-mel anda tidak akan diterbitkan. Medan yang diperlukan ditanda *

Anda boleh menggunakan tag dan atribut HTML ini: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

ms_MYMalay