Od kamer až po samořídící auta je mnoho dnešních technologií závislých na umělé inteligenci při získávání významu z vizuálních informací. Dnešní technologie umělé inteligence má v jádru umělé neuronové sítě a většinou můžeme těmto systémům počítačového vidění s umělou inteligencí důvěřovat, že vidí věci tak, jak je vidíme my – ale někdy zakolísají. Podle vědců z MIT a IBM je jedním ze způsobů, jak zlepšit počítačové vidění, instruovat umělé neuronové sítě, na které se spoléhají, aby záměrně napodobovaly způsob, jakým biologická neuronová síť mozku zpracovává vizuální obrazy.
Vědci pod vedením profesora MIT James DiCarlo, ředitel MIT's Quest for Intelligence a člen MIT-IBM Watson AI Lab, učinili model počítačového vidění robustnějším tím, že jej naučili fungovat jako součást mozku, na kterou lidé a další primáti spoléhají při rozpoznávání objektů. Letos v květnu na mezinárodní konferenci o reprezentacích učení, hlásil tým že když trénovali umělou neuronovou síť pomocí vzorců neuronové aktivity v mozkové inferior temporal (IT) kůře, umělá neuronová síť byla robustněji schopná identifikovat objekty na obrázcích než model, který postrádal tento nervový trénink. A modelova interpretace obrázků více odpovídala tomu, co viděli lidé, i když obrázky obsahovaly drobná zkreslení, která úkol ztížila.
Porovnání neuronových obvodů
Mnohé z umělých neuronových sítí používaných pro počítačové vidění již připomínají vícevrstvé mozkové obvody, které zpracovávají vizuální informace u lidí a dalších primátů. Stejně jako mozek používají jednotky podobné neuronu, které spolupracují při zpracování informací. Jak jsou trénováni na konkrétní úkol, tyto vrstvené komponenty společně a progresivně zpracovávají vizuální informace k dokončení úkolu – například určují, že obrázek zobrazuje medvěda, auto nebo strom.
DiCarlo a další dříve nalezena že když takovéto hluboce se učící systémy počítačového vidění zavedou účinné způsoby řešení vizuálních problémů, skončí s umělými obvody, které fungují podobně jako nervové obvody, které zpracovávají vizuální informace v našem vlastním mozku. To znamená, že se ukázaly být překvapivě dobrými vědeckými modely nervových mechanismů, které jsou základem zraku primátů a člověka.
Tato podobnost pomáhá neurovědcům prohloubit jejich porozumění mozku. Demonstrací způsobů, jak lze vizuální informace zpracovat tak, aby dávaly smysl obrazům, výpočetní modely navrhují hypotézy o tom, jak by mozek mohl splnit stejný úkol. Jak vývojáři pokračují ve zdokonalování modelů počítačového vidění, neurovědci našli nové nápady, které mohou prozkoumat ve své vlastní práci.
„Jak se systémy zraku zlepšují ve výkonu v reálném světě, některé z nich se ve svém vnitřním zpracování více podobají člověku. To je užitečné z hlediska porozumění a biologie,“ říká DiCarlo, který je také profesorem mozkových a kognitivních věd a vyšetřovatelem na McGovern Institute for Brain Research.
Vytvořte AI, která se podobá mozku
Zatímco jejich potenciál je slibný, systémy počítačového vidění ještě nejsou dokonalými modely lidského vidění. DiCarlo měl podezření, že jedním ze způsobů, jak zlepšit počítačové vidění, může být začlenění specifických funkcí podobných mozku do těchto modelů.
Aby tuto myšlenku otestoval, vytvořil on a jeho spolupracovníci model počítačového vidění s použitím neurálních dat, která byla dříve shromážděna z neuronů zpracovávajících zrak v opičím IT kortexu – klíčové části ventrální vizuální dráhy primátů, která se podílí na rozpoznávání objektů – zatímco zvířata pozorovala. různé obrázky. Přesněji řečeno, Joel Dapello, postgraduální student Harvardské univerzity a bývalý stážista MIT-IBM Watson AI Lab; a Kohitij Kar, odborný asistent a katedra Canada Research Chair (Visual Neuroscience) na York University a hostující vědec na MIT; ve spolupráci s Davidem Coxem, viceprezidentem IBM Research pro modely AI a ředitelem IBM MIT-IBM Watson AI Lab; a další výzkumníci z IBM Research a MIT požádali umělou neuronovou síť, aby napodobila chování těchto neuronů zpracovávajících zrak primátů, zatímco se síť naučila identifikovat objekty ve standardní úloze počítačového vidění.
„Ve skutečnosti jsme síti řekli: „Vyřešte prosím tento standardní úkol počítačového vidění, ale také prosím, aby funkce jedné z vašich vnitřních simulovaných „neurálních“ vrstev byla co nejpodobnější funkci odpovídající biologické nervové vrstvy. “ vysvětluje DiCarlo. "Požádali jsme ji, aby obě tyto věci udělala co nejlépe." To donutilo umělé nervové obvody najít jiný způsob zpracování vizuálních informací, než je standardní přístup počítačového vidění, říká.
Po trénování umělého modelu s biologickými daty porovnal DiCarlův tým jeho aktivitu s podobně velkým modelem neuronové sítě trénovaným bez nervových dat, za použití standardního přístupu pro počítačové vidění. Zjistili, že nová, biologicky informovaná modelová IT vrstva byla – jak bylo instruováno – lépe přizpůsobena pro IT neurální data. To znamená, že na každý testovaný obrázek populace umělých IT neuronů v modelu reagovala podobněji jako odpovídající populace biologických IT neuronů.
Výzkumníci také zjistili, že model IT také lépe odpovídal IT neurálním datům shromážděným od jiné opice, i když model nikdy neviděl data od tohoto zvířete, a dokonce i když bylo toto srovnání vyhodnoceno na IT reakcích této opice na nové obrázky. To naznačovalo, že nový, „neurálně zarovnaný“ počítačový model týmu může být vylepšeným modelem neurobiologické funkce mozkové kůry IT primátů – zajímavé zjištění, vzhledem k tomu, že dříve nebylo známo, zda množství nervových dat, která lze v současné době sbírat z vizuální systém primátů je schopen přímo řídit vývoj modelu.
Se svým novým počítačovým modelem v ruce se tým zeptal, zda postup „IT neuron alignment“ také vede k nějakým změnám v celkovém chování modelu. Zjistili, že neurálně zarovnaný model byl svým chováním více podobný člověku – měl tendenci uspět ve správné kategorizaci objektů v obrazech, u kterých lidé také uspěli, a měl tendenci selhávat, když lidé také selhali.
Útoky protivníka
Tým také zjistil, že neurálně zarovnaný model byl odolnější vůči „nepřátelským útokům“, které vývojáři používají k testování systémů počítačového vidění a umělé inteligence. V počítačovém vidění vnášejí nepřátelské útoky do obrázků malá zkreslení, která mají umělou neuronovou síť uvést v omyl.
„Řekněme, že máte obrázek, který model identifikuje jako kočku. Protože máte znalosti o vnitřním fungování modelu, můžete pak navrhnout velmi malé změny v obrázku, takže si model najednou myslí, že už to není kočka,“ vysvětluje DiCarlo.
Tyto drobné deformace obvykle lidi neoklamou, ale modely počítačového vidění se s těmito změnami potýkají. Člověk, který se na jemně zkreslenou kočku podívá, stále spolehlivě a robustně hlásí, že je to kočka. Ale standardní modely počítačového vidění si s větší pravděpodobností zamění kočku se psem nebo dokonce se stromem.
"Musí existovat určité vnitřní rozdíly ve způsobu, jakým náš mozek zpracovává obrazy, které vedou k tomu, že naše vize je odolnější vůči těmto druhům útoků," říká DiCarlo. A skutečně tým zjistil, že když udělali svůj model více nervově zarovnaný, stal se robustnějším a správně identifikoval více obrázků tváří v tvář nepřátelským útokům. Model by se stále dal oklamat silnějšími „útoky“, ale to mohou i lidé, říká DiCarlo. Jeho tým nyní zkoumá hranice odolnosti protivníka u lidí.
Před několika lety DiCarlův tým zjistil, že by také mohli zlepšit odolnost modelu vůči nepřátelským útokům navržením první vrstvy umělé sítě, která by emulovala ranou vrstvu vizuálního zpracování v mozku. Dalším klíčovým krokem je kombinace takových přístupů – vytváření nových modelů, které jsou současně nervově zarovnány na více vrstvách vizuálního zpracování.
Nová práce je dalším důkazem toho, že výměna myšlenek mezi neurovědou a informatikou může řídit pokrok v obou oblastech. „Každý získá něco ze vzrušujícího ctnostného cyklu mezi přirozenou/biologickou inteligencí a umělou inteligencí,“ říká DiCarlo. "V tomto případě výzkumníci počítačového vidění a umělé inteligence získají nové způsoby, jak dosáhnout robustnosti, a neurovědci a kognitivní vědci získají přesnější mechanické modely lidského vidění."
Tato práce byla podporována laboratoří MIT-IBM Watson AI Lab, Semiconductor Research Corporation, Agenturou pro obranné výzkumné projekty USA, MIT Shoemaker Fellowship, US Office of Naval Research, Simons Foundation a Canada Research Chair Program.
zanechte odpověď