Quando la visione artificiale funziona più come un cervello, vede più come fanno le persone | Notizie del MIT



visione computerizzata

Dalle fotocamere alle auto a guida autonoma, molte delle tecnologie odierne dipendono dall'intelligenza artificiale per estrarre significato dalle informazioni visive. La tecnologia AI di oggi ha al suo interno reti neurali artificiali e la maggior parte delle volte possiamo fidarci di questi sistemi di visione artificiale basati sull'intelligenza artificiale per vedere le cose nel modo in cui le vediamo noi, ma a volte vacillano. Secondo i ricercatori del MIT e dell'IBM, un modo per migliorare la visione artificiale è istruire le reti neurali artificiali su cui si basano per imitare deliberatamente il modo in cui la rete neurale biologica del cervello elabora le immagini visive.

Ricercatori guidati dal professore del MIT James Di Carlo, direttore del Quest for Intelligence del MIT e membro del Watson AI Lab del MIT-IBM, hanno reso più robusto un modello di visione artificiale addestrandolo a funzionare come una parte del cervello su cui gli esseri umani e altri primati fanno affidamento per il riconoscimento degli oggetti. Questo maggio, alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento, ha riferito la squadra che quando hanno addestrato una rete neurale artificiale utilizzando modelli di attività neurale nella corteccia temporale inferiore (IT) del cervello, la rete neurale artificiale era in grado di identificare gli oggetti nelle immagini in modo più efficace rispetto a un modello privo di tale addestramento neurale. E le interpretazioni delle immagini del modello corrispondevano più da vicino a ciò che vedevano gli umani, anche quando le immagini includevano piccole distorsioni che rendevano il compito più difficile.

Confronto tra circuiti neurali

Molte delle reti neurali artificiali utilizzate per la visione artificiale somigliano già ai circuiti cerebrali multistrato che elaborano le informazioni visive negli esseri umani e in altri primati. Come il cervello, utilizzano unità simili ai neuroni che lavorano insieme per elaborare le informazioni. Man mano che vengono addestrati per un compito particolare, questi componenti stratificati elaborano collettivamente e progressivamente le informazioni visive per completare l’attività, determinando, ad esempio, che un’immagine raffigura un orso, un’auto o un albero.

DiCarlo e altri precedentemente trovato che quando tali sistemi di visione artificiale ad apprendimento profondo stabiliscono modi efficienti per risolvere i problemi visivi, finiscono con circuiti artificiali che funzionano in modo simile ai circuiti neurali che elaborano le informazioni visive nel nostro cervello. Si rivelano cioè modelli scientifici sorprendentemente validi dei meccanismi neurali alla base della visione umana e dei primati.

Questa somiglianza sta aiutando i neuroscienziati ad approfondire la loro comprensione del cervello. Dimostrando i modi in cui le informazioni visive possono essere elaborate per dare un senso alle immagini, i modelli computazionali suggeriscono ipotesi su come il cervello potrebbe svolgere lo stesso compito. Mentre gli sviluppatori continuano a perfezionare i modelli di visione artificiale, i neuroscienziati hanno trovato nuove idee da esplorare nel proprio lavoro.

“Man mano che i sistemi di visione migliorano nel mondo reale, alcuni di essi si rivelano più simili a quelli umani nella loro elaborazione interna. Ciò è utile dal punto di vista della comprensione biologica", afferma DiCarlo, che è anche professore di scienze cognitive e del cervello e ricercatore presso il McGovern Institute for Brain Research.

Progettare un'intelligenza artificiale più simile al cervello

Sebbene il loro potenziale sia promettente, i sistemi di visione artificiale non sono ancora modelli perfetti della visione umana. DiCarlo sospettava che un modo per migliorare la visione artificiale potesse essere quello di incorporare specifiche caratteristiche simili al cervello in questi modelli.

Per testare questa idea, lui e i suoi collaboratori hanno costruito un modello di visione artificiale utilizzando dati neurali precedentemente raccolti dai neuroni che elaborano la vista nella corteccia IT delle scimmie – una parte fondamentale del percorso visivo ventrale dei primati coinvolto nel riconoscimento degli oggetti – mentre gli animali osservavano varie immagini. Più specificamente, Joel Dapello, uno studente laureato dell'Università di Harvard ed ex stagista del Watson AI Lab del MIT-IBM; e Kohitij Kar, assistente professore e Canada Research Chair (Visual Neuroscience) presso l'Università di York e visiting scientist al MIT; in collaborazione con David Cox, vicepresidente di IBM Research per i modelli AI e direttore IBM del MIT-IBM Watson AI Lab; e altri ricercatori dell'IBM Research e del MIT hanno chiesto a una rete neurale artificiale di emulare il comportamento di questi neuroni di elaborazione della vista dei primati mentre la rete imparava a identificare gli oggetti in un compito standard di visione artificiale.

"In effetti, abbiamo detto alla rete: 'per favore, risolvete questo compito standard di visione artificiale, ma per favore fate anche in modo che la funzione di uno dei vostri strati "neurali" simulati all'interno sia il più simile possibile alla funzione del corrispondente strato neurale biologico. '”, spiega DiCarlo. “Gli abbiamo chiesto di fare entrambe le cose nel miglior modo possibile”. Ciò ha costretto i circuiti neurali artificiali a trovare un modo diverso di elaborare le informazioni visive rispetto all’approccio standard della visione artificiale, afferma.

Dopo aver addestrato il modello artificiale con dati biologici, il team di DiCarlo ha confrontato la sua attività con un modello di rete neurale di dimensioni simili addestrato senza dati neurali, utilizzando l'approccio standard per la visione artificiale. Hanno scoperto che il nuovo livello IT del modello biologicamente informato era, come indicato, una corrispondenza migliore per i dati neurali IT. Cioè, per ogni immagine testata, la popolazione di neuroni IT artificiali nel modello ha risposto in modo più simile alla corrispondente popolazione di neuroni IT biologici.

I ricercatori hanno anche scoperto che il modello IT corrispondeva meglio ai dati neurali IT raccolti da un'altra scimmia, anche se il modello non aveva mai visto dati di quell'animale, e anche quando il confronto veniva valutato sulle risposte IT di quella scimmia a nuove immagini. Ciò ha indicato che il nuovo modello computerizzato “allineato neuralmente” del team potrebbe essere un modello migliorato della funzione neurobiologica della corteccia IT dei primati – una scoperta interessante, dato che in precedenza non si sapeva se la quantità di dati neurali che possono essere attualmente raccolti da il sistema visivo dei primati è in grado di guidare direttamente lo sviluppo del modello.

Con il nuovo modello computerizzato in mano, il team si è chiesto se la procedura di “allineamento neurale IT” porta anche a cambiamenti nelle prestazioni comportamentali complessive del modello. In effetti, hanno scoperto che il modello allineato neuralmente era più simile a quello umano nel suo comportamento: tendeva a riuscire a classificare correttamente gli oggetti in immagini in cui anche gli umani riescono, e tendeva a fallire quando anche gli umani fallivano.

Attacchi contraddittori

Il team ha anche scoperto che il modello allineato neuralmente era più resistente agli “attacchi avversari” che gli sviluppatori utilizzano per testare la visione artificiale e i sistemi di intelligenza artificiale. Nella visione artificiale, gli attacchi avversari introducono piccole distorsioni nelle immagini che hanno lo scopo di fuorviare una rete neurale artificiale.

“Diciamo che hai un'immagine che il modello identifica come un gatto. Poiché si conosce il funzionamento interno del modello, è possibile progettare cambiamenti molto piccoli nell'immagine in modo che il modello pensi improvvisamente di non essere più un gatto”, spiega DiCarlo.

Queste piccole distorsioni in genere non ingannano gli esseri umani, ma i modelli di visione artificiale hanno difficoltà con queste alterazioni. Una persona che guarda il gatto sottilmente distorto riferisce comunque in modo affidabile e robusto che si tratta di un gatto. Ma i modelli standard di visione artificiale hanno maggiori probabilità di confondere il gatto con un cane o addirittura con un albero.

"Ci devono essere alcune differenze interne nel modo in cui il nostro cervello elabora le immagini che rendono la nostra vista più resistente a questo tipo di attacchi", afferma DiCarlo. E in effetti, il team ha scoperto che quando hanno reso il loro modello più allineato a livello neurale, è diventato più robusto, identificando correttamente più immagini di fronte agli attacchi avversari. Il modello potrebbe ancora essere ingannato da “attacchi” più forti, ma lo stesso possono fare le persone, dice DiCarlo. Il suo team sta ora esplorando i limiti della robustezza dell’avversario negli esseri umani.

Alcuni anni fa, il team di DiCarlo ha scoperto che si poteva anche migliorare la resistenza di un modello agli attacchi avversari progettando il primo strato della rete artificiale per emulare il primo strato di elaborazione visiva nel cervello. Uno dei prossimi passi chiave è quello di combinare tali approcci, creando nuovi modelli che siano simultaneamente allineati a livello neurale su più livelli di elaborazione visiva.

Il nuovo lavoro è un’ulteriore prova del fatto che uno scambio di idee tra neuroscienze e informatica può guidare il progresso in entrambi i campi. “Tutti ottengono qualcosa dall’entusiasmante circolo virtuoso tra intelligenza naturale/biologica e intelligenza artificiale”, afferma DiCarlo. “In questo caso, i ricercatori di visione artificiale e intelligenza artificiale scoprono nuovi modi per raggiungere la robustezza, mentre i neuroscienziati e gli scienziati cognitivi ottengono modelli meccanicistici più accurati della visione umana”.

Questo lavoro è stato supportato dal MIT-IBM Watson AI Lab, dalla Semiconductor Research Corporation, dalla US Defense Research Projects Agency, dalla MIT Shoemaker Fellowship, dall’US Office of Naval Research, dalla Simons Foundation e dal Canada Research Chair Program.



Collegamento alla fonte

lascia un commento

L'indirizzo email non verrà pubblicato. I campi richiesti sono contrassegnati *

Puoi utilizzare questi tag e attributi HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

it_ITItalian