عندما تعمل الرؤية الحاسوبية مثل الدماغ، فإنها ترى أكثر مما يفعله الناس | أخبار معهد ماساتشوستس للتكنولوجيا



رؤية الكمبيوتر

من الكاميرات إلى السيارات ذاتية القيادة، تعتمد العديد من التقنيات اليوم على الذكاء الاصطناعي لاستخلاص المعنى من المعلومات المرئية. تحتوي تكنولوجيا الذكاء الاصطناعي اليوم على شبكات عصبية اصطناعية في جوهرها، وفي معظم الأوقات يمكننا أن نثق في أنظمة الرؤية الحاسوبية ذات الذكاء الاصطناعي هذه لرؤية الأشياء بالطريقة التي نفعلها، لكنها تتعثر في بعض الأحيان. وفقًا لعلماء الأبحاث في معهد ماساتشوستس للتكنولوجيا وشركة آي بي إم، فإن إحدى طرق تحسين رؤية الكمبيوتر هي توجيه الشبكات العصبية الاصطناعية التي يعتمدون عليها لتقليد الطريقة التي تعالج بها الشبكة العصبية البيولوجية في الدماغ الصور المرئية.

الباحثون بقيادة أستاذ معهد ماساتشوستس للتكنولوجيا جيمس ديكارلو، مدير برنامج Quest for Intelligence في معهد ماساتشوستس للتكنولوجيا وعضو في مختبر MIT-IBM Watson AI Lab، جعل نموذج رؤية الكمبيوتر أكثر قوة من خلال تدريبه على العمل مثل جزء من الدماغ الذي يعتمد عليه البشر والقرود الأخرى للتعرف على الأشياء. في شهر مايو من هذا العام، في المؤتمر الدولي لتمثيلات التعلم، أفاد الفريق أن أنه عندما قاموا بتدريب شبكة عصبية اصطناعية باستخدام أنماط النشاط العصبي في القشرة الزمنية السفلية للدماغ، كانت الشبكة العصبية الاصطناعية أكثر قدرة على التعرف على الأشياء في الصور من النموذج الذي يفتقر إلى هذا التدريب العصبي. وكانت تفسيرات النموذج للصور أكثر تطابقًا مع ما رآه البشر، حتى عندما تضمنت الصور تشوهات طفيفة جعلت المهمة أكثر صعوبة.

مقارنة الدوائر العصبية

إن العديد من الشبكات العصبية الاصطناعية المستخدمة لرؤية الكمبيوتر تشبه بالفعل دوائر الدماغ متعددة الطبقات التي تعالج المعلومات المرئية لدى البشر والرئيسيات الأخرى. مثل الدماغ، يستخدمون وحدات تشبه الخلايا العصبية تعمل معًا لمعالجة المعلومات. عندما يتم تدريبهم على مهمة معينة، تقوم هذه المكونات ذات الطبقات بشكل جماعي وتدريجي بمعالجة المعلومات المرئية لإكمال المهمة - تحديد، على سبيل المثال، أن الصورة تصور دبًا أو سيارة أو شجرة.

ديكارلو وآخرون وجدت سابقا أنه عندما تنشئ أنظمة الرؤية الحاسوبية ذات التعلم العميق طرقًا فعالة لحل المشكلات البصرية، فإنها تنتهي في النهاية بدوائر صناعية تعمل بشكل مشابه للدوائر العصبية التي تعالج المعلومات المرئية في أدمغتنا. وهذا يعني أنها تبين أنها نماذج علمية جيدة بشكل مدهش للآليات العصبية الكامنة وراء رؤية الرئيسيات والبشر.

ويساعد هذا التشابه علماء الأعصاب على تعميق فهمهم للدماغ. ومن خلال توضيح الطرق التي يمكن من خلالها معالجة المعلومات المرئية لفهم الصور، تقترح النماذج الحسابية فرضيات حول كيفية قيام الدماغ بإنجاز المهمة نفسها. مع استمرار المطورين في تحسين نماذج الرؤية الحاسوبية، وجد علماء الأعصاب أفكارًا جديدة لاستكشافها في عملهم.

"مع تحسن أداء أنظمة الرؤية في العالم الحقيقي، يتبين أن بعضها أصبح أكثر شبهاً بالإنسان في معالجته الداخلية. يقول ديكارلو، وهو أيضًا أستاذ علوم الدماغ والمعرفية وباحث في معهد ماكجفرن لأبحاث الدماغ: «إن هذا مفيد من وجهة نظر فهم الأحياء».

هندسة الذكاء الاصطناعي الشبيه بالدماغ

في حين أن إمكاناتها واعدة، فإن أنظمة الرؤية الحاسوبية ليست بعد نماذج مثالية للرؤية البشرية. يشتبه ديكارلو في أن إحدى الطرق لتحسين رؤية الكمبيوتر قد تكون دمج ميزات محددة تشبه الدماغ في هذه النماذج.

ولاختبار هذه الفكرة، قام هو ومعاونوه ببناء نموذج رؤية حاسوبية باستخدام البيانات العصبية التي تم جمعها سابقًا من الخلايا العصبية لمعالجة الرؤية في قشرة تكنولوجيا المعلومات في القرد - وهي جزء رئيسي من المسار البصري البطني للرئيسيات المشارك في التعرف على الأشياء - بينما كانت الحيوانات تنظر صور مختلفة. وبشكل أكثر تحديدًا، جويل دابيلو، طالب دراسات عليا في جامعة هارفارد ومتدرب سابق في مختبر MIT-IBM Watson AI Lab؛ وكوهيتيج كار، أستاذ مساعد ورئيس أبحاث كندا (علم الأعصاب البصري) في جامعة يورك وعالم زائر في معهد ماساتشوستس للتكنولوجيا؛ بالتعاون مع ديفيد كوكس، نائب رئيس IBM Research لنماذج الذكاء الاصطناعي ومدير IBM لمختبر MIT-IBM Watson AI Lab؛ وطلب باحثون آخرون في IBM Research ومعهد ماساتشوستس للتكنولوجيا من شبكة عصبية اصطناعية محاكاة سلوك هذه الخلايا العصبية الرئيسية لمعالجة الرؤية بينما تعلمت الشبكة التعرف على الأشياء في مهمة رؤية الكمبيوتر القياسية.

"في الواقع، قلنا للشبكة، "من فضلك قم بحل مهمة الرؤية الحاسوبية القياسية هذه، ولكن من فضلك أيضًا اجعل وظيفة إحدى الطبقات "العصبية" الداخلية المحاكية لديك مماثلة قدر الإمكان لوظيفة الطبقة العصبية البيولوجية المقابلة، "" يشرح ديكارلو. "لقد طلبنا منها أن تفعل هذين الأمرين بأفضل ما تستطيع." ويقول إن هذا أجبر الدوائر العصبية الاصطناعية على إيجاد طريقة مختلفة لمعالجة المعلومات المرئية عن منهج الرؤية الحاسوبية القياسي.

بعد تدريب النموذج الاصطناعي باستخدام البيانات البيولوجية، قارن فريق ديكارلو نشاطه بنموذج شبكة عصبية مماثل الحجم تم تدريبه بدون بيانات عصبية، باستخدام النهج القياسي للرؤية الحاسوبية. ووجدوا أن طبقة تكنولوجيا المعلومات النموذجية الجديدة والمستنيرة بيولوجيًا كانت - وفقًا للتعليمات - متوافقة بشكل أفضل مع البيانات العصبية لتكنولوجيا المعلومات. وهذا يعني أنه بالنسبة لكل صورة تم اختبارها، استجابت مجموعة الخلايا العصبية لتكنولوجيا المعلومات الاصطناعية في النموذج بشكل أكثر تشابهًا مع المجموعة المقابلة من الخلايا العصبية لتقنية المعلومات البيولوجية.

ووجد الباحثون أيضًا أن نموذج تكنولوجيا المعلومات كان أيضًا أكثر تطابقًا مع البيانات العصبية لتكنولوجيا المعلومات التي تم جمعها من قرد آخر، على الرغم من أن النموذج لم يشاهد أبدًا بيانات من ذلك الحيوان، وحتى عندما تم تقييم تلك المقارنة على استجابات تكنولوجيا المعلومات لهذا القرد للصور الجديدة. يشير هذا إلى أن النموذج الحاسوبي الجديد "المتوافق عصبيًا" للفريق قد يكون نموذجًا محسنًا للوظيفة العصبية الحيوية لقشرة تكنولوجيا المعلومات لدى الرئيسيات - وهو اكتشاف مثير للاهتمام، نظرًا لأنه لم يكن معروفًا سابقًا ما إذا كانت كمية البيانات العصبية التي يمكن جمعها حاليًا من النظام البصري للرئيسيات قادر على توجيه تطوير النموذج بشكل مباشر.

ومع وجود نموذج الكمبيوتر الجديد في متناول اليد، تساءل الفريق عما إذا كان إجراء "المحاذاة العصبية لتكنولوجيا المعلومات" يؤدي أيضًا إلى أي تغييرات في الأداء السلوكي العام للنموذج. في الواقع، وجدوا أن النموذج المحاذي عصبيًا كان أكثر شبهًا بالإنسان في سلوكه، إذ كان يميل إلى النجاح في تصنيف الأشياء بشكل صحيح في الصور، وهو ما ينجح فيه البشر أيضًا، ويميل إلى الفشل عندما يفشل البشر أيضًا.

هجمات معادية

ووجد الفريق أيضًا أن النموذج المتوافق عصبيًا كان أكثر مقاومة لـ "الهجمات العدائية" التي يستخدمها المطورون لاختبار رؤية الكمبيوتر وأنظمة الذكاء الاصطناعي. في الرؤية الحاسوبية، تؤدي الهجمات العدائية إلى تشويهات صغيرة في الصور تهدف إلى تضليل الشبكة العصبية الاصطناعية.

"لنفترض أن لديك صورة يعرفها النموذج على أنها قطة. يوضح ديكارلو: "نظرًا لأن لديك معرفة بالآليات الداخلية للنموذج، يمكنك بعد ذلك تصميم تغييرات صغيرة جدًا في الصورة بحيث يعتقد النموذج فجأة أنه لم يعد قطة".

هذه التشوهات البسيطة لا تخدع البشر عادةً، لكن نماذج الرؤية الحاسوبية تعاني من هذه التعديلات. الشخص الذي ينظر إلى القطة المشوهة بمهارة لا يزال يقول بشكل موثوق وقوي أنها قطة. لكن نماذج الرؤية الحاسوبية القياسية من المرجح أن تخطئ بين القطة وكلب، أو حتى شجرة.

يقول ديكارلو: "لا بد أن تكون هناك بعض الاختلافات الداخلية في الطريقة التي تعالج بها أدمغتنا الصور التي تؤدي إلى أن تصبح رؤيتنا أكثر مقاومة لهذا النوع من الهجمات". وفي الواقع، وجد الفريق أنه عندما جعلوا نموذجهم أكثر اتساقًا من الناحية العصبية، أصبح أكثر قوة، وقاموا بتحديد المزيد من الصور بشكل صحيح في مواجهة الهجمات العدائية. يقول ديكارلو إنه لا يزال من الممكن خداع النموذج من خلال "هجمات" أقوى، ولكن يمكن أيضًا خداع الناس. ويقوم فريقه الآن باستكشاف حدود قوة الخصومة لدى البشر.

قبل بضع سنوات، اكتشف فريق ديكارلو أنه يمكنهم أيضًا تحسين مقاومة النموذج للهجمات العدائية من خلال تصميم الطبقة الأولى من الشبكة الاصطناعية لمحاكاة طبقة المعالجة البصرية المبكرة في الدماغ. تتمثل إحدى الخطوات الرئيسية التالية في الجمع بين هذه الأساليب، أي إنشاء نماذج جديدة تتم محاذاتها عصبيًا في نفس الوقت في طبقات معالجة بصرية متعددة.

يعد العمل الجديد دليلاً إضافيًا على أن تبادل الأفكار بين علم الأعصاب وعلوم الكمبيوتر يمكن أن يدفع التقدم في كلا المجالين. يقول ديكارلو: "يحصل الجميع على شيء ما من الدورة الفاضلة المثيرة بين الذكاء الطبيعي/البيولوجي والذكاء الاصطناعي". "في هذه الحالة، يحصل باحثو الرؤية الحاسوبية والذكاء الاصطناعي على طرق جديدة لتحقيق المتانة، ويحصل علماء الأعصاب وعلماء الإدراك على نماذج آلية أكثر دقة للرؤية البشرية."

تم دعم هذا العمل من قبل مختبر MIT-IBM Watson AI Lab، وشركة أبحاث أشباه الموصلات، ووكالة مشاريع أبحاث الدفاع الأمريكية، وزمالة MIT Shoemaker، والمكتب الأمريكي للأبحاث البحرية، ومؤسسة سيمونز، وبرنامج كرسي الأبحاث الكندي.



رابط المصدر

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المطلوبة مشار إليها *

يمكنك استخدام علامات وسمات HTML هذه: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

arArabic