जब कंप्यूटर दृष्टि मस्तिष्क की तरह काम करती है, तो यह लोगों की तरह अधिक देखती है | एमआईटी समाचार



कंप्यूटर दृष्टि

कैमरे से लेकर सेल्फ-ड्राइविंग कारों तक, आज की कई प्रौद्योगिकियां दृश्य जानकारी से अर्थ निकालने के लिए कृत्रिम बुद्धिमत्ता पर निर्भर हैं। आज की एआई तकनीक के मूल में कृत्रिम तंत्रिका नेटवर्क हैं, और ज्यादातर समय हम इन एआई कंप्यूटर विज़न सिस्टम पर भरोसा कर सकते हैं कि वे चीजों को उसी तरह देख पाएंगे जैसे हम देखते हैं - लेकिन कभी-कभी वे लड़खड़ा जाते हैं। एमआईटी और आईबीएम अनुसंधान वैज्ञानिकों के अनुसार, कंप्यूटर दृष्टि में सुधार करने का एक तरीका कृत्रिम तंत्रिका नेटवर्क को निर्देश देना है जिस पर वे जानबूझकर मस्तिष्क के जैविक तंत्रिका नेटवर्क दृश्य छवियों को संसाधित करने के तरीके की नकल करने के लिए भरोसा करते हैं।

शोधकर्ताओं का नेतृत्व एमआईटी प्रोफेसर ने किया जेम्स डिकार्लोएमआईटी के क्वेस्ट फॉर इंटेलिजेंस के निदेशक और एमआईटी-आईबीएम वॉटसन एआई लैब के सदस्य ने एक कंप्यूटर विज़न मॉडल को मस्तिष्क के उस हिस्से की तरह काम करने के लिए प्रशिक्षित करके और अधिक मजबूत बनाया है जिस पर मनुष्य और अन्य प्राइमेट वस्तु पहचान के लिए भरोसा करते हैं। इस मई में, सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में, टीम ने रिपोर्ट दी जब उन्होंने मस्तिष्क के अवर टेम्पोरल (आईटी) कॉर्टेक्स में तंत्रिका गतिविधि पैटर्न का उपयोग करके एक कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित किया, तो कृत्रिम तंत्रिका नेटवर्क उस मॉडल की तुलना में छवियों में वस्तुओं की पहचान करने में अधिक मजबूती से सक्षम था जिसमें तंत्रिका प्रशिक्षण का अभाव था। और मॉडल की छवियों की व्याख्याएं मनुष्यों द्वारा देखी गई चीज़ों से अधिक निकटता से मेल खाती थीं, तब भी जब छवियों में मामूली विकृतियां शामिल थीं जो कार्य को और अधिक कठिन बना देती थीं।

तंत्रिका सर्किट की तुलना करना

कंप्यूटर दृष्टि के लिए उपयोग किए जाने वाले कई कृत्रिम तंत्रिका नेटवर्क पहले से ही बहुस्तरीय मस्तिष्क सर्किट से मिलते जुलते हैं जो मनुष्यों और अन्य प्राइमेट्स में दृश्य जानकारी को संसाधित करते हैं। मस्तिष्क की तरह, वे न्यूरॉन जैसी इकाइयों का उपयोग करते हैं जो जानकारी को संसाधित करने के लिए मिलकर काम करते हैं। जैसे ही उन्हें किसी विशेष कार्य के लिए प्रशिक्षित किया जाता है, ये स्तरित घटक कार्य को पूरा करने के लिए दृश्य जानकारी को सामूहिक रूप से और उत्तरोत्तर संसाधित करते हैं - उदाहरण के लिए, यह निर्धारित करना कि एक छवि एक भालू या एक कार या एक पेड़ को दर्शाती है।

डिकार्लो और अन्य पहले मिला जब ऐसे गहन-शिक्षण कंप्यूटर विज़न सिस्टम दृश्य समस्याओं को हल करने के लिए कुशल तरीके स्थापित करते हैं, तो वे कृत्रिम सर्किट के साथ समाप्त हो जाते हैं जो तंत्रिका सर्किट के समान काम करते हैं जो हमारे अपने मस्तिष्क में दृश्य जानकारी को संसाधित करते हैं। अर्थात्, वे प्राइमेट और मानव दृष्टि के अंतर्निहित तंत्रिका तंत्र के आश्चर्यजनक रूप से अच्छे वैज्ञानिक मॉडल बन जाते हैं।

यह समानता तंत्रिका वैज्ञानिकों को मस्तिष्क के बारे में उनकी समझ को गहरा करने में मदद कर रही है। छवियों को समझने के लिए दृश्य जानकारी को संसाधित करने के तरीकों का प्रदर्शन करके, कम्प्यूटेशनल मॉडल इस बारे में परिकल्पना सुझाते हैं कि मस्तिष्क उसी कार्य को कैसे पूरा कर सकता है। जैसे-जैसे डेवलपर्स कंप्यूटर विज़न मॉडल को परिष्कृत करना जारी रखते हैं, न्यूरोसाइंटिस्टों को अपने काम में तलाशने के लिए नए विचार मिल गए हैं।

“जैसे-जैसे दृष्टि प्रणालियाँ वास्तविक दुनिया में प्रदर्शन करने में बेहतर होती जाती हैं, उनमें से कुछ अपने आंतरिक प्रसंस्करण में अधिक मानवीय होते जाते हैं। यह समझ-जीव विज्ञान के दृष्टिकोण से उपयोगी है,'' डिकार्लो कहते हैं, जो मस्तिष्क और संज्ञानात्मक विज्ञान के प्रोफेसर और मैकगवर्न इंस्टीट्यूट फॉर ब्रेन रिसर्च में एक अन्वेषक भी हैं।

अधिक मस्तिष्क-जैसी एआई इंजीनियरिंग

हालाँकि उनकी क्षमता आशाजनक है, कंप्यूटर विज़न सिस्टम अभी तक मानव दृष्टि के आदर्श मॉडल नहीं हैं। डिकार्लो को संदेह था कि कंप्यूटर दृष्टि को बेहतर बनाने का एक तरीका इन मॉडलों में मस्तिष्क जैसी विशिष्ट विशेषताओं को शामिल करना हो सकता है।

इस विचार का परीक्षण करने के लिए, उन्होंने और उनके सहयोगियों ने बंदर आईटी कॉर्टेक्स में दृष्टि-प्रसंस्करण न्यूरॉन्स से पहले एकत्र किए गए तंत्रिका डेटा का उपयोग करके एक कंप्यूटर विज़न मॉडल बनाया - वस्तुओं की पहचान में शामिल प्राइमेट वेंट्रल दृश्य मार्ग का एक महत्वपूर्ण हिस्सा - जबकि जानवरों को देखा गया विभिन्न छवियाँ. अधिक विशेष रूप से, हार्वर्ड विश्वविद्यालय के स्नातक छात्र और पूर्व एमआईटी-आईबीएम वॉटसन एआई लैब इंटर्न जोएल डेपेलो; और यॉर्क यूनिवर्सिटी में सहायक प्रोफेसर और कनाडा रिसर्च चेयर (विज़ुअल न्यूरोसाइंस) और एमआईटी में विजिटिंग वैज्ञानिक कोहितिज कर; डेविड कॉक्स, एआई मॉडल के लिए आईबीएम रिसर्च के उपाध्यक्ष और एमआईटी-आईबीएम वाटसन एआई लैब के आईबीएम निदेशक के सहयोग से; और आईबीएम रिसर्च और एमआईटी के अन्य शोधकर्ताओं ने एक कृत्रिम तंत्रिका नेटवर्क से इन प्राइमेट दृष्टि-प्रसंस्करण न्यूरॉन्स के व्यवहार का अनुकरण करने के लिए कहा, जबकि नेटवर्क ने एक मानक कंप्यूटर दृष्टि कार्य में वस्तुओं की पहचान करना सीखा।

"असल में, हमने नेटवर्क से कहा, 'कृपया इस मानक कंप्यूटर विज़न कार्य को हल करें, लेकिन कृपया अपने अंदर की सिम्युलेटेड "तंत्रिका" परतों में से एक के कार्य को संबंधित जैविक तंत्रिका परत के कार्य के समान संभव बनाएं, ''डिकार्लो बताते हैं। "हमने उससे इन दोनों चीजों को यथासंभव सर्वोत्तम तरीके से करने के लिए कहा।" उनका कहना है कि इसने कृत्रिम तंत्रिका सर्किट को मानक, कंप्यूटर दृष्टि दृष्टिकोण की तुलना में दृश्य जानकारी को संसाधित करने का एक अलग तरीका खोजने के लिए मजबूर किया।

जैविक डेटा के साथ कृत्रिम मॉडल को प्रशिक्षित करने के बाद, डिकार्लो की टीम ने कंप्यूटर दृष्टि के लिए मानक दृष्टिकोण का उपयोग करते हुए, इसकी गतिविधि की तुलना तंत्रिका डेटा के बिना प्रशिक्षित समान आकार के तंत्रिका नेटवर्क मॉडल से की। उन्होंने पाया कि नया, जैविक रूप से सूचित मॉडल आईटी परत - जैसा कि निर्देश दिया गया था - आईटी तंत्रिका डेटा के लिए एक बेहतर मेल है। अर्थात्, परीक्षण की गई प्रत्येक छवि के लिए, मॉडल में कृत्रिम आईटी न्यूरॉन्स की आबादी जैविक आईटी न्यूरॉन्स की संबंधित आबादी के समान ही प्रतिक्रिया करती है।

शोधकर्ताओं ने यह भी पाया कि मॉडल आईटी किसी अन्य बंदर से एकत्र किए गए आईटी तंत्रिका डेटा से भी बेहतर मेल खाता था, भले ही मॉडल ने उस जानवर का डेटा कभी नहीं देखा था, और तब भी जब उस तुलना का मूल्यांकन नई छवियों के लिए उस बंदर की आईटी प्रतिक्रियाओं पर किया गया था। इससे संकेत मिलता है कि टीम का नया, "न्यूरली एलाइन्ड" कंप्यूटर मॉडल प्राइमेट आईटी कॉर्टेक्स के न्यूरोबायोलॉजिकल फ़ंक्शन का एक बेहतर मॉडल हो सकता है - एक दिलचस्प खोज, यह देखते हुए कि यह पहले से अज्ञात था कि क्या तंत्रिका डेटा की मात्रा वर्तमान में एकत्र की जा सकती है प्राइमेट विज़ुअल सिस्टम सीधे मॉडल विकास का मार्गदर्शन करने में सक्षम है।

अपने नए कंप्यूटर मॉडल को हाथ में लेकर, टीम ने पूछा कि क्या "आईटी तंत्रिका संरेखण" प्रक्रिया भी मॉडल के समग्र व्यवहार प्रदर्शन में कोई बदलाव लाती है। वास्तव में, उन्होंने पाया कि तंत्रिका-संरेखित मॉडल अपने व्यवहार में अधिक मानवीय था - यह छवियों में वस्तुओं को सही ढंग से वर्गीकृत करने में सफल होता था, जिसके लिए मनुष्य भी सफल होते थे, और जब मनुष्य भी विफल होते थे तो यह विफल हो जाता था।

प्रतिकूल आक्रमण

टीम ने यह भी पाया कि तंत्रिका रूप से संरेखित मॉडल "प्रतिकूल हमलों" के प्रति अधिक प्रतिरोधी था, जिसका उपयोग डेवलपर्स कंप्यूटर विज़न और एआई सिस्टम का परीक्षण करने के लिए करते हैं। कंप्यूटर विज़न में, प्रतिकूल हमले छवियों में छोटी विकृतियाँ पेश करते हैं जो एक कृत्रिम तंत्रिका नेटवर्क को गुमराह करने के लिए होती हैं।

“कहें कि आपके पास एक छवि है जिसे मॉडल एक बिल्ली के रूप में पहचानता है। क्योंकि आपको मॉडल की आंतरिक कार्यप्रणाली का ज्ञान है, तो आप छवि में बहुत छोटे बदलाव डिज़ाइन कर सकते हैं ताकि मॉडल को अचानक लगे कि यह अब बिल्ली नहीं है,'' डिकार्लो बताते हैं।

ये छोटी विकृतियाँ आम तौर पर मनुष्यों को मूर्ख नहीं बनाती हैं, लेकिन कंप्यूटर विज़न मॉडल इन परिवर्तनों से जूझते हैं। एक व्यक्ति जो सूक्ष्म रूप से विकृत बिल्ली को देखता है वह अभी भी विश्वसनीय और मजबूती से रिपोर्ट करता है कि यह एक बिल्ली है। लेकिन मानक कंप्यूटर विज़न मॉडल में गलती से बिल्ली को कुत्ता, या यहाँ तक कि एक पेड़ समझने की अधिक संभावना होती है।

डिकार्लो कहते हैं, "जिस तरह से हमारा दिमाग छवियों को संसाधित करता है उसमें कुछ आंतरिक अंतर होना चाहिए जिससे हमारी दृष्टि उन प्रकार के हमलों के प्रति अधिक प्रतिरोधी हो जाती है।" और वास्तव में, टीम ने पाया कि जब उन्होंने अपने मॉडल को अधिक तंत्रिका रूप से संरेखित किया, तो यह अधिक मजबूत हो गया, और प्रतिकूल हमलों के सामने अधिक छवियों की सही पहचान की। डिकार्लो का कहना है कि मॉडल को अभी भी मजबूत "हमलों" से मूर्ख बनाया जा सकता है, लेकिन लोग भी ऐसा कर सकते हैं। उनकी टीम अब मनुष्यों में प्रतिकूल मजबूती की सीमाएं तलाश रही है।

कुछ साल पहले, डिकार्लो की टीम ने पाया कि वे मस्तिष्क में प्रारंभिक दृश्य प्रसंस्करण परत का अनुकरण करने के लिए कृत्रिम नेटवर्क की पहली परत को डिजाइन करके प्रतिकूल हमलों के प्रति मॉडल के प्रतिरोध में भी सुधार कर सकते हैं। एक महत्वपूर्ण अगला कदम ऐसे दृष्टिकोणों को संयोजित करना है - नए मॉडल बनाना जो एक साथ कई दृश्य प्रसंस्करण परतों पर तंत्रिका रूप से संरेखित हों।

नया कार्य इस बात का और सबूत है कि तंत्रिका विज्ञान और कंप्यूटर विज्ञान के बीच विचारों का आदान-प्रदान दोनों क्षेत्रों में प्रगति ला सकता है। डिकार्लो कहते हैं, "हर किसी को प्राकृतिक/जैविक बुद्धिमत्ता और कृत्रिम बुद्धिमत्ता के बीच रोमांचक पुण्य चक्र से कुछ न कुछ मिलता है।" "इस मामले में, कंप्यूटर विज़न और एआई शोधकर्ताओं को मजबूती हासिल करने के नए तरीके मिलते हैं, और न्यूरोवैज्ञानिकों और संज्ञानात्मक वैज्ञानिकों को मानव दृष्टि के अधिक सटीक यंत्रवत मॉडल मिलते हैं।"

इस काम को एमआईटी-आईबीएम वॉटसन एआई लैब, सेमीकंडक्टर रिसर्च कॉरपोरेशन, यूएस डिफेंस रिसर्च प्रोजेक्ट्स एजेंसी, एमआईटी शूमेकर फेलोशिप, यूएस ऑफिस ऑफ नेवल रिसर्च, सिमंस फाउंडेशन और कनाडा रिसर्च चेयर प्रोग्राम द्वारा समर्थित किया गया था।



स्रोत लिंक

उत्तर छोड़ दें

आपकी ईमेल आईडी प्रकाशित नहीं की जाएगी। आवश्यक फ़ील्ड चिह्नित हैं *

आप इन HTML टैग और विशेषताओं का उपयोग कर सकते हैं: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

hi_INHindi