هل تستطيع نماذج اللغات الكبيرة إجراء تقييم ذاتي للسلامة؟ تعرف على RAIN: طريقة استدلال جديدة لتحويل محاذاة الذكاء الاصطناعي والدفاع دون ضبط دقيق


أثبتت نماذج اللغات الكبيرة (LLMs) المدربة مسبقًا، مثل GPT-3، أن لديها قدرات غير عادية لفهم أسئلة البشر والرد عليها، والمساعدة في مهام البرمجة، والمزيد. ومع ذلك، فإنها في كثير من الأحيان تولد نتائج تختلف عما يحبه الناس. في الماضي، حاول الباحثون حل هذه المشكلة عن طريق جمع معلومات عن التفضيلات البشرية ومن ثم مواءمة النماذج التي تم تدريبها مسبقًا من خلال استخدام التعلم المعزز أو ضبط التعليمات، مما يستلزم مرحلة الضبط الدقيق. ومن الأكثر جاذبية مواءمة حاملي شهادات الماجستير في القانون، الذين لم يخضعوا بعد لتدريب إضافي، دون الحاجة إلى بيانات إضافية. 

في الآونة الأخيرة، اكتشف فريق من الباحثين أن ماجستير إدارة الأعمال غير المنحاز يمكن أن ينتج بشكل مباشر ردودًا تتوافق مع التفضيلات البشرية من خلال عملية التحسين الذاتي من خلال تضمين آليات التقييم الذاتي والترجيع. من أجل سلامة الذكاء الاصطناعي، فقد قدموا INference القابل للإرجاع التلقائي (RAIN)، وهي تقنية استدلال فريدة تمكن طلاب LLM المدربين مسبقًا من تقييم النص الذي تم إنشاؤه واستخدام نتائج التقييم لتوجيه الإرجاع إلى الخلف والجيل الأمامي.

يتميز RAIN بقدرته على العمل دون الحاجة إلى أي بيانات إضافية لمحاذاة النموذج. إنه يلغي متطلبات تحديث المعلمات أو حساب التدرج أو التدريب. يحصل النموذج على الاتجاه الذي سيتم من خلاله محاذاة التفضيلات البشرية أثناء مرحلة التقييم الذاتي من خلال موجه قالب ثابت، مما يتجنب الحاجة إلى ضبط الاستعلام الأولي بشكل متكرر.

أظهرت النتائج التجريبية، التي تم تقييمها بواسطة نموذج GPT-4 والمقيمين البشريين، مدى نجاح RAIN. على سبيل المثال، باستخدام مجموعة بيانات HH، يحافظ RAIN على معدل المساعدة ثابتًا بينما يعزز بشكل كبير معدل الضرر لـ LLaMA 30B مقارنة باستدلال الفانيليا، حيث ينتقل من 82% إلى 97%. شارك الفريق أن RAIN أنشأ خطًا أساسيًا جديدًا للدفاع عن طريق خفض معدل نجاح الهجوم من 94% إلى 19% عندما يكون Vicuna 33B هدفًا لهجوم معادٍ ملحوظ (LLM-ATTACKS).

تقدم RAIN عددًا من المزايا مقارنة بالطرق المستخدمة حاليًا لمحاذاة نماذج اللغات الكبيرة (LLMs) - 

  1. العالمية: نهج RAIN قابل للتكيف ويمكن استخدامه لمجموعة متنوعة من الوظائف المولدة للغة. وهو يتناسب تمامًا مع نموذج الاستدلال الانحداري التلقائي، وهو المعيار السائد في العديد من حاملي شهادات LLM. وهذا يعني أن RAIN قابل للتخصيص بدرجة كبيرة وسهل الاستخدام ويمكن دمجه بسرعة في معظم برامج LLM الحالية.
  1. المحاذاة مع الأوزان المجمدة: لا يتطلب RAIN صيانة نماذج إضافية أو تخزين بيانات التدرج والشبكات الحسابية، على عكس بعض استراتيجيات المحاذاة الأخرى مثل RLHF. الحد الأدنى لحمل الذاكرة الناتج عن هذا يمكن مقارنته باستدلال الانحدار التلقائي البسيط. يعد RAIN خيارًا واقعيًا لمواءمة ماجستير إدارة الأعمال (LLM) مع الأوزان المجمدة بسبب تنفيذه البسيط وتصميمه الموفر للذاكرة، مما يلغي إجراءات الضبط الدقيقة التي تتطلب موارد مكثفة.
  1. خالية من التعلم: لا تعتمد RAIN على أي نوع من البيانات المصنفة أو غير المسماة أو على التعليقات التوضيحية البشرية. لا يتطلب الكثير من المعلومات أو التدريب لأنه يعمل بطريقة خالية من التعلم. يعمل RAIN على تحسين أداء المحاذاة بشكل كبير عبر مجموعة من المهام ويجعل LLMs أكثر مقاومة للهجمات العدائية السريعة. إنه يقلل بشكل كبير من معدل نجاح الهجوم عند تقييمه مقابل طريقة هجوم عدائي معروفة، مما يدل على فعاليته كدفاع ضد مثل هذه الهجمات.

في الختام، قدمت هذه الدراسة RAIN كأسلوب لضبط LLMs حسب التفضيلات البشرية دون الحاجة إلى معلومات إضافية أو ضبط شاق. يتم تحقيق ذلك من خلال السماح لـ LLMs بتقييم وتعزيز مخرجاتهم الخاصة، مما يؤدي في النهاية إلى استجابات أكثر تنسيقًا وأمانًا يتم إنشاؤها بواسطة الذكاء الاصطناعي.


تفحص ال ورقكل الفضل في هذا البحث يعود إلى الباحثين في هذا المشروع. وأيضا لا تنسى الإنضمام لدينا 30k+ ML SubReddit, 40 ألف+ مجتمع الفيسبوك، قناة الديسكورد, و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.

إذا أعجبك عملنا، فسوف تحب نشرتنا الإخبارية..


20220308 160704 1 تانيا

تانيا مالهوترا هي طالبة جامعية في السنة النهائية من جامعة دراسات البترول والطاقة في دهرادون، وتدرس بكالوريوس التكنولوجيا في هندسة علوم الكمبيوتر مع تخصص في الذكاء الاصطناعي والتعلم الآلي.
وهي متحمسة لعلوم البيانات وتتمتع بتفكير تحليلي ونقدي جيد، إلى جانب اهتمام كبير باكتساب مهارات جديدة وقيادة المجموعات وإدارة العمل بطريقة منظمة.




رابط المصدر

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المطلوبة مشار إليها *

يمكنك استخدام علامات وسمات HTML هذه: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

arArabic