Apakah Hubungan Antara Transformer dan Mesin Vektor Sokongan? Menyingkap Bias Tersirat dan Geometri Pengoptimuman dalam Seni Bina Transformer


Pemprosesan bahasa semula jadi (NLP) telah merevolusikan kerana perhatian kendiri, elemen utama reka bentuk pengubah, membolehkan model mengenali sambungan rumit dalam urutan input. Perhatian diri memberikan pelbagai aspek urutan input jumlah keutamaan yang berbeza-beza dengan menilai perkaitan token yang berkaitan antara satu sama lain. Teknik lain telah terbukti sangat baik dalam menangkap hubungan jarak jauh, yang penting untuk pembelajaran pengukuhan, penglihatan komputer dan aplikasi NLP. Mekanisme dan pengubah perhatian diri telah mencapai kejayaan yang luar biasa, mengosongkan laluan untuk mencipta model bahasa yang kompleks seperti GPT4, Bard, LLaMA dan ChatGPT. 

Bolehkah mereka menerangkan kecenderungan tersirat transformer dan landskap pengoptimuman? Bagaimanakah lapisan perhatian memilih dan menggabungkan token apabila dilatih dengan keturunan kecerunan? Penyelidik dari University of Pennsylvania, University of California, University of British Columbia, dan University of Michigan menjawab masalah ini dengan mengikat bersama geometri pengoptimuman lapisan perhatian dengan masalah SVM margin max keras (Att-SVM) dengan teliti, yang memisahkan dan memilih token terbaik daripada setiap urutan input. Eksperimen menunjukkan bahawa formalisme ini, yang dibina berdasarkan kerja sebelumnya, secara praktikalnya penting dan menerangi nuansa perhatian diri. 

dXIuT9IwjLxz5dBo aj3oWoTP1QOYKCyXiGf9d0ukhc6ffd5IUrsa hQvbQI9R d97sLJdG9fwiQmYOXLlr 2AHcDEaTImkOnsVN7yys52Fp35WThjLUGSN CDV Y
Teorem 1

Sepanjang, mereka menyiasat model perhatian silang dan perhatian kendiri asas menggunakan urutan input X, Z ∈ RT×d dengan panjang T dan dimensi benam d: Di sini, kunci yang boleh dilatih, pertanyaan dan matriks nilai ialah K, Q ∈ Rd×m, dan V ∈ Rd×v masing-masing. S( . ) ialah singkatan kepada ketaklinearan softmax, yang digunakan mengikut baris pada XQKX. Dengan menetapkan Z ← X, dapat dilihat bahawa perhatian kendiri (1b) ialah kes unik perhatian silang (1a). Pertimbangkan untuk menggunakan token awal Z, diwakili oleh z, untuk ramalan untuk mendedahkan penemuan utama mereka. 

Khususnya, mereka menangani pengurangan risiko empirikal dengan penurunan fungsi kehilangan l(): RR, dinyatakan seperti berikut: Diberi set data latihan (Yi, Xi, zi)ni=1 dengan label Yi ∈ {−1, 1} dan input Xi ∈ RT×d, zi ∈ Rd, mereka menilai perkara berikut: Kepala ramalan dalam kes ini, dilambangkan dengan simbol h( . ), termasuk pemberat nilai V. Dalam perumusan ini, MLP mengikut lapisan perhatian dalam model f( . ), yang menggambarkan dengan tepat a pengubah satu lapisan. Perhatian diri dipulihkan dalam (2) dengan menetapkan zi ← xi1, di mana xi1 menunjuk token pertama bagi urutan Xi. Disebabkan oleh watak tak linearnya, operasi softmax memberikan halangan yang besar untuk mengoptimumkan (2). 

k89ACCtnYLRsOSS MzxznPVXU kM4xcR51TUeZkP9FmtGTUBK36O2R7jza250u1 vzm IKgZwl9Ok82DNL1eXnr ae6qHq7Vq5KBUisR7OSdSZp5VYe4KKN10kHq7Vq5KBUisR7OSdSZp5VYe2KHREk zWM
Teorem 2

Isunya bukan cembung dan tak linear, walaupun kepala ramalan adalah tetap dan linear. Kerja ini mengoptimumkan pemberat perhatian (K, Q, atau W) untuk mengatasi kesukaran ini dan mewujudkan kesetaraan SVM asas. 

Berikut adalah sumbangan utama kertas kerja tersebut: 

• Kecondongan tersirat lapisan dalam perhatian. Dengan matlamat norma nuklear bagi parameter gabungan W:= KQ (Thm 2), mengoptimumkan parameter perhatian (K, Q) dengan regularisasi yang semakin berkurangan menumpu ke arah penyelesaian margin maksimum (Att-SVM). Laluan regularisasi (RP) menumpu secara arah kepada penyelesaian (Att-SVM) dengan objektif norma Frobenius apabila perhatian silang diparameterkan secara eksplisit oleh parameter gabungan W. Untuk pengetahuan mereka, ini adalah kajian pertama yang membandingkan secara formal dinamik pengoptimuman bagi (K, Q) parameterisasi kepada parameterisasi (W), menonjolkan bias peringkat rendah yang terakhir. Teorem 11 dan SAtt-SVM dalam lampiran menerangkan bagaimana teori mereka dengan mudah diperluaskan kepada urutan-ke-jujukan atau konteks pengkategorian sebab dan jelas mentakrifkan keoptimuman token yang dipilih. 

• Penumpuan keturunan kecerunan. Dengan pemulaan yang betul dan kepala linear h(), lelaran penurunan kecerunan untuk gabungan pembolehubah pertanyaan kunci W menumpu ke arah penyelesaian Att-SVM yang optimum setempat. Token yang dipilih mesti berprestasi lebih baik daripada token sekelilingnya untuk keoptimuman setempat. Peraturan optimum tempatan ditakrifkan dalam geometri masalah berikut, walaupun ia tidak selalunya unik. Mereka menyumbang dengan ketara dengan mengenal pasti parameter geometri yang memastikan penumpuan kepada arah optimum global. Ini termasuk (i) keupayaan untuk membezakan token ideal berdasarkan skornya atau (ii) penjajaran arah kecerunan awal dengan token optimum. Di luar ini, mereka menunjukkan bagaimana penparameteran berlebihan (iaitu, dimensi d sebagai keadaan yang besar dan setara) menggalakkan penumpuan global dengan menjamin kebolehlaksanaan (Att-SVM) dan landskap pengoptimuman (jinak), yang bermaksud tiada titik pegun dan tiada rekaan optimum tempatan. arah.

• Keumuman kesetaraan SVM. Lapisan perhatian, selalunya dikenali sebagai perhatian keras apabila mengoptimumkan dengan linear h(), secara intrinsik berat sebelah ke arah memilih satu token daripada setiap jujukan. Hasil daripada token output yang merupakan gabungan cembung token input, ini dicerminkan dalam (Att-SVM). 

Walau bagaimanapun, mereka menunjukkan bahawa kepala tak linear memerlukan penciptaan beberapa token, menggariskan kepentingan komponen ini kepada dinamik pengubah. Mereka mencadangkan persamaan SVM yang lebih luas dengan menyimpulkan teori mereka. Yang menghairankan, mereka menunjukkan bahawa hipotesis mereka dengan betul meramalkan kecenderungan tersirat perhatian yang dilatih oleh keturunan kecerunan dalam keadaan luas yang tidak ditangani dengan pendekatan (contohnya, h() sebagai MLP). Persamaan umum mereka secara khusus mengasingkan pemberat perhatian kepada dua komponen: komponen terhingga yang menentukan komposisi tepat bagi perkataan yang dipilih dengan mengubah suai kebarangkalian softmax dan komponen arah dikawal oleh SVM yang memilih token dengan menggunakan topeng 0-1. 

Hakikat bahawa keputusan ini boleh disahkan secara matematik dan digunakan pada mana-mana set data (apabila SVM praktikal) adalah aspek utama daripadanya. Melalui eksperimen yang berwawasan, mereka secara komprehensif mengesahkan kesetaraan margin maksimum dan berat sebelah tersirat pengubah. Mereka percaya bahawa keputusan ini menyumbang kepada pengetahuan kami tentang transformer sebagai proses pemilihan token margin maks hierarki, dan mereka menjangkakan bahawa penemuan mereka akan menyediakan asas yang kukuh untuk penyelidikan masa depan tentang dinamik pengoptimuman dan generalisasi transformer. 


Semak kertasSemua Kredit Untuk Penyelidikan Ini Ditujukan Kepada Penyelidik Projek Ini. Juga, jangan lupa untuk menyertai 30k+ ML SubReddit kami, 40k+ Komuniti Facebook, Saluran Discord, dan E-mel Surat Berita, tempat kami berkongsi berita penyelidikan AI terkini, projek AI yang hebat dan banyak lagi.

Jika anda menyukai kerja kami, anda akan menyukai surat berita kami..


Aneesh PP Aneesh Tickoo

Aneesh Tickoo ialah pelatih perunding di MarktechPost. Beliau kini sedang melanjutkan pengajian ijazah sarjana muda dalam Sains Data dan Kepintaran Buatan dari Institut Teknologi India (IIT), Bhilai. Dia menghabiskan sebahagian besar masanya mengerjakan projek yang bertujuan untuk memanfaatkan kuasa pembelajaran mesin. Minat penyelidikannya ialah pemprosesan imej dan bersemangat membina penyelesaian di sekelilingnya. Dia suka berhubung dengan orang ramai dan bekerjasama dalam projek yang menarik.




Pautan sumber

Tinggalkan pesanan

Alamat e-mel anda tidak akan diterbitkan. Medan yang diperlukan ditanda *

Anda boleh menggunakan tag dan atribut HTML ini: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

ms_MYMalay