باحثون من الصين يقدمون برنامج ImageBind-LLM: طريقة ضبط التعليمات متعددة الأساليب لنماذج اللغات الكبيرة (LLMs) عبر ImageBind


لقد شهد الباحثون مؤخرًا تحسينات كبيرة في ضبط تعليمات نماذج اللغات الكبيرة (LLMs). ChatGPT وGPT-4 هما نظامان ناطقان للأغراض العامة يخضعان للأوامر البشرية في اللغة والمرئيات. ومع ذلك، فهي لا تزال غير قابلة للتكرار بسبب قيود المصدر المغلق. تقدم Alpaca وLLaMAAdapter والجهود ذات الصلة تعديل LLaMA المتاحة للجمهور إلى نماذج تعليم اللغة باستخدام البيانات المولدة ذاتيًا استجابة لذلك. LLaVA وLLAMA-Adapter وغيرهما يدمجون قدرات الفهم البصري في LLMs من أجل إنشاء صور مكيفة لإنجاز تصميم تعليمات الصورة. 

على الرغم من نجاح تقنيات ضبط التعليمات الحالية، إلا أن هناك حاجة إلى المزيد لإنشاء LLM لتعليمات واسعة النطاق متعددة الوسائط، مثل النص والصور والصوت والسحب النقطية ثلاثية الأبعاد والفيديو. يقدم مؤلفو هذه الدراسة من مختبر شنغهاي للذكاء الاصطناعي وCUHK MMLab وvivo AI Lab نموذج متابعة التعليمات متعدد الوسائط ImageBind-LLM، والذي يقوم بضبط LLaMA بشكل فعال تحت إشراف مساحة التضمين المشتركة في ImageBind المدربة مسبقًا. كما هو موضح في الشكل 1، يمكن لـ ImageBind-LLM (b) الخاص بهم الاستجابة لتعليمات الإدخال الخاصة بالعديد من الطرائق بالإضافة إلى الصور، والتي تختلف عن نماذج التعليمات المرئية السابقة (a)، مما يدل على قابلية التوسعة والتعميم الواعدة.

يقترحون على وجه التحديد استخدام بيانات لغة الرؤية فقط لتعديل تعليمات الوسائط المتعددة نظرًا لمساحة تضمين الوسائط المتعددة المحاذية للصور في ImageBind. بالنسبة لزوج التعليق على الصورة، يقومون أولاً باستخراج ميزة الصورة العامة باستخدام برنامج تشفير الصور المجمدة الخاص بـ ImageBind قبل تضمين التحويل باستخدام شبكة ربط قابلة للتعلم. يتم تطبيق ميزة الصورة المحولة لاحقًا على جميع الرموز المميزة لكلمات طبقة المحولات في LLaMA، مما يؤدي إلى إنشاء السياق المرئي لإنشاء التسمية التوضيحية النصية المناسبة. على النقيض من الاهتمام الصفري في سلسلة LLaMA-Adapter، فإن آلية الحقن البصري الخاصة بهم بسيطة ومثقلة بعامل بوابة صفري التهيئة قابل للتدريب. 

بهذه الطريقة الفعالة، مع تقدم التدريب، يمكن إدخال إشارات التعليمات الخاصة بتضمينات ImageBind المتعددة الوسائط تدريجيًا إلى LLaMA دون التدخل في فهم اللغة الأصلية. باستخدام ImageBind للتشفيرات الخاصة بطريقة معينة، مثل النص والصور والصوت والفيديو، تكتسب ImageBind-LLM الخاصة بهم الكفاءة للامتثال لتعليمات الطرائق المتنوعة بعد التدريب الأساسي على لغة الرؤية. يستخدمون برنامج التشفير ثلاثي الأبعاد المدرب مسبقًا في Point-Bind لتشفير سحب النقاط ثلاثية الأبعاد المدخلة للحصول على تعليمات في المجالات ثلاثية الأبعاد. كما أنها توفر نهجًا للتخزين المؤقت المرئي بدون تدريب لتضمين التعزيز أثناء الاستدلال لمعالجة فجوة الطريقة بين التدريب على الصور والإنتاج النصي أو الصوتي أو ثلاثي الأبعاد أو الفيديو المكيف. 

Ob1JoelWPAq597f6aq4u02kV eWixiRJAZcWIDG0WeJQ31ZXZOVpIWaFIATxKIZ7qboqWT3g3byD7nd1hYuFPFIRIRTxJUYDEuNZrgUPtKLgpzS69KGZxPHIRsP717eH 7zJFYr0Zf z0N4hV6 q أنا
شكل 1 يقارن نماذجنا المتعددة الوسائط مقابل نماذج التعليمات المرئية ImageBind-LLM. يقوم ImageBind-LLM بإجراء ضبط تعليمي عالمي متعدد الوسائط للصور والنص والصوت والفيديو والأبعاد الثلاثية، على عكس الجهود السابقة [1-3] التي كانت مشروطة حصريًا بنمط الصورة.

يشتمل نموذج ذاكرة التخزين المؤقت على الملايين من ميزات الصورة في مجموعات بيانات التدريب التي تم استردادها بواسطة ImageBind، والتي تعمل على تحسين تضمينات النص/الصوت/ثلاثية الأبعاد/الفيديو من خلال الحصول على خصائص مرئية قابلة للمقارنة (Tip-Adapter). ونتيجة لذلك، أصبحت الردود الشفهية على التعليمات متعددة الوسائط ذات جودة أكبر. لقد قاموا باختبار إمكانيات متابعة التعليمات متعددة الوسائط الخاصة بـ ImageBind-LLM في ظروف مختلفة ووجدوا أنها تقدم أداءً أفضل باستمرار. 

بشكل عام، يوضح برنامج ImageBind-LLM الخاص بهم الصفات الأربع المذكورة أدناه.

• تعليمات مع العديد من الأوضاع. تم تحسين ImageBind-LLM للاستجابة للمدخلات العامة متعددة الوسائط، مثل الصورة والنص والصوت والسحب النقطية ثلاثية الأبعاد والفيديو، وحساب مساحة التضمين الخاصة بها التي يمثلها ImageBind وPoint-Bind. وهذا يختلف عن نماذج تعليم اللغة والصور السابقة. 

• ضبط الكفاءة. أثناء التدريب، يقومون بتجميد برنامج تشفير الصور الخاص بـ ImageBind وضبط الأوزان الجزئية في LLaMA باستخدام أساليب ذات كفاءة في المعلمات مثل LoRA وضبط التحيز المعياري. كما يقومون أيضًا بتدريب عوامل البوابات ذات التهيئة الصفرية وشبكة الربط الإضافية. 

• الحقن بدون تهيئة بدون انتباه. إنهم يستخدمون طريقة بوابة قابلة للتعلم لحقن المعرفة التقدمية، وهي أكثر وضوحًا وكفاءة، وتدمج متطلبات الوسائط المتعددة مع جميع رموز الكلمات الخاصة بـ LLaMA مباشرة بدلاً من تقديم إشارات تعليمات إضافية من خلال طبقات الانتباه. 

• الاسترجاع من ذاكرة التخزين المؤقت عبر الوسائط. أنها توفر نموذج ذاكرة تخزين مؤقت مرئية من ميزات الصورة المستخرجة بواسطة ImageBind، والتي تقوم باسترجاع الوسائط المتعددة لتضمين التعزيز لمعالجة تباين الطريقة بين التدريب (صورة واحدة) والاستدلال (العديد من الطرائق).


تفحص ال ورق و جيثبكل الفضل في هذا البحث يعود إلى الباحثين في هذا المشروع. وأيضا لا تنسى الإنضمام لدينا 30k+ ML SubReddit, 40 ألف+ مجتمع الفيسبوك، قناة الديسكورد, و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.

إذا أعجبك عملنا، فسوف تحب نشرتنا الإخبارية..


أنيش بي بي أنيش تيكو

أنيش تيكو هو متدرب استشاري في MarktechPost. وهو يسعى حاليًا للحصول على شهادته الجامعية في علوم البيانات والذكاء الاصطناعي من المعهد الهندي للتكنولوجيا (IIT)، بهيلاي. يقضي معظم وقته في العمل على مشاريع تهدف إلى تسخير قوة التعلم الآلي. اهتماماته البحثية هي معالجة الصور وهو شغوف ببناء حلول حولها. يحب التواصل مع الناس والتعاون في مشاريع مثيرة للاهتمام.




رابط المصدر

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المطلوبة مشار إليها *

يمكنك استخدام علامات وسمات HTML هذه: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

arArabic