Lorsque la vision par ordinateur fonctionne davantage comme un cerveau, elle voit davantage comme les gens | Actualités du MIT



vision par ordinateur

Des caméras aux voitures autonomes, de nombreuses technologies actuelles dépendent de l’intelligence artificielle pour extraire un sens des informations visuelles. La technologie d’IA d’aujourd’hui est basée sur des réseaux de neurones artificiels, et la plupart du temps, nous pouvons faire confiance à ces systèmes de vision par ordinateur d’IA pour voir les choses comme nous le faisons – mais parfois ils échouent. Selon les chercheurs du MIT et d'IBM, une façon d'améliorer la vision par ordinateur consiste à demander aux réseaux neuronaux artificiels sur lesquels ils s'appuient d'imiter délibérément la façon dont le réseau neuronal biologique du cerveau traite les images visuelles.

Chercheurs dirigés par un professeur du MIT James DiCarlo, directeur de Quest for Intelligence au MIT et membre du MIT-IBM Watson AI Lab, ont rendu un modèle de vision par ordinateur plus robuste en l'entraînant à fonctionner comme une partie du cerveau sur laquelle les humains et autres primates s'appuient pour la reconnaissance d'objets. En mai prochain, lors de la Conférence internationale sur les représentations de l'apprentissage, l'équipe a rapporté que lorsqu'ils ont formé un réseau neuronal artificiel en utilisant des modèles d'activité neuronale dans le cortex temporel inférieur (IT) du cerveau, le réseau neuronal artificiel était plus capable d'identifier des objets dans des images qu'un modèle dépourvu de cette formation neuronale. Et les interprétations des images par le modèle correspondaient plus étroitement à ce que les humains voyaient, même lorsque les images comportaient des distorsions mineures qui rendaient la tâche plus difficile.

Comparaison des circuits neuronaux

De nombreux réseaux de neurones artificiels utilisés pour la vision par ordinateur ressemblent déjà aux circuits cérébraux multicouches qui traitent les informations visuelles chez les humains et autres primates. Comme le cerveau, ils utilisent des unités de type neurone qui travaillent ensemble pour traiter les informations. Au fur et à mesure qu’ils sont formés pour une tâche particulière, ces composants en couches traitent collectivement et progressivement les informations visuelles pour accomplir la tâche – déterminant, par exemple, qu’une image représente un ours, une voiture ou un arbre.

DiCarlo et autres trouvé précédemment que lorsque de tels systèmes de vision par ordinateur à apprentissage profond établissent des moyens efficaces pour résoudre les problèmes visuels, ils aboutissent à des circuits artificiels qui fonctionnent de manière similaire aux circuits neuronaux qui traitent les informations visuelles dans notre propre cerveau. Autrement dit, ils s’avèrent être des modèles scientifiques étonnamment bons des mécanismes neuronaux qui sous-tendent la vision des primates et de l’homme.

Cette ressemblance aide les neuroscientifiques à approfondir leur compréhension du cerveau. En démontrant comment les informations visuelles peuvent être traitées pour donner un sens aux images, les modèles informatiques suggèrent des hypothèses sur la manière dont le cerveau pourrait accomplir la même tâche. Alors que les développeurs continuent d’affiner les modèles de vision par ordinateur, les neuroscientifiques ont trouvé de nouvelles idées à explorer dans leurs propres travaux.

« À mesure que les systèmes de vision fonctionnent mieux dans le monde réel, certains d’entre eux se révèlent plus humains dans leur traitement interne. C'est utile du point de vue de la compréhension de la biologie », explique DiCarlo, qui est également professeur de sciences du cerveau et des sciences cognitives et chercheur au McGovern Institute for Brain Research.

Concevoir une IA plus proche du cerveau

Même si leur potentiel est prometteur, les systèmes de vision par ordinateur ne sont pas encore des modèles parfaits de la vision humaine. DiCarlo soupçonnait qu'une façon d'améliorer la vision par ordinateur pourrait être d'incorporer des fonctionnalités spécifiques semblables à celles du cerveau dans ces modèles.

Pour tester cette idée, lui et ses collaborateurs ont construit un modèle de vision par ordinateur en utilisant des données neuronales précédemment collectées à partir de neurones de traitement de la vision dans le cortex informatique du singe - un élément clé de la voie visuelle ventrale ventrale des primates impliquée dans la reconnaissance des objets - pendant que les animaux regardaient. diverses images. Plus précisément, Joel Dapello, étudiant diplômé de l'Université Harvard et ancien stagiaire du MIT-IBM Watson AI Lab ; et Kohitij Kar, professeur adjoint et titulaire de la Chaire de recherche du Canada (neurosciences visuelles) à l'Université York et chercheur invité au MIT ; en collaboration avec David Cox, vice-président d'IBM Research pour les modèles d'IA et directeur IBM du MIT-IBM Watson AI Lab ; et d'autres chercheurs d'IBM Research et du MIT ont demandé à un réseau de neurones artificiels d'émuler le comportement de ces neurones de traitement de la vision des primates pendant que le réseau apprenait à identifier des objets dans une tâche de vision par ordinateur standard.

"En fait, nous avons dit au réseau : 's'il vous plaît, résolvez cette tâche standard de vision par ordinateur, mais s'il vous plaît, faites également en sorte que la fonction de l'une de vos couches "neurales" simulées à l'intérieur soit aussi similaire que possible à la fonction de la couche neuronale biologique correspondante. '», explique DiCarlo. "Nous lui avons demandé de faire ces deux choses du mieux qu'il pouvait." Cela a obligé les circuits neuronaux artificiels à trouver une manière différente de traiter les informations visuelles par rapport à l'approche standard de la vision par ordinateur, dit-il.

Après avoir entraîné le modèle artificiel avec des données biologiques, l'équipe de DiCarlo a comparé son activité à un modèle de réseau neuronal de taille similaire entraîné sans données neuronales, en utilisant l'approche standard de la vision par ordinateur. Ils ont constaté que la nouvelle couche informatique du modèle biologiquement informé était, comme indiqué, une meilleure correspondance pour les données neuronales informatiques. Autrement dit, pour chaque image testée, la population de neurones informatiques artificiels du modèle répondait de manière plus similaire à la population correspondante de neurones informatiques biologiques.

Les chercheurs ont également découvert que le modèle informatique correspondait également mieux aux données neuronales informatiques collectées auprès d'un autre singe, même si le modèle n'avait jamais vu de données de cet animal, et même lorsque cette comparaison était évaluée sur les réponses informatiques de ce singe à de nouvelles images. Cela indique que le nouveau modèle informatique « neuronalement aligné » de l'équipe pourrait être un modèle amélioré de la fonction neurobiologique du cortex informatique des primates – une découverte intéressante, étant donné qu'on ne savait pas auparavant si la quantité de données neuronales pouvant être actuellement collectées à partir de le système visuel des primates est capable de guider directement le développement du modèle.

Avec leur nouveau modèle informatique en main, l’équipe a demandé si la procédure « d’alignement neuronal informatique » entraînait également des changements dans les performances comportementales globales du modèle. En effet, ils ont découvert que le modèle neuronal avait un comportement plus humain : il avait tendance à réussir à catégoriser correctement les objets dans des images pour lesquelles les humains réussissaient également, et il avait tendance à échouer lorsque les humains échouaient également.

Attaques contradictoires

L’équipe a également constaté que le modèle à alignement neuronal était plus résistant aux « attaques contradictoires » que les développeurs utilisent pour tester les systèmes de vision par ordinateur et d’IA. En vision par ordinateur, les attaques contradictoires introduisent de petites distorsions dans les images destinées à induire en erreur un réseau neuronal artificiel.

« Dites que vous avez une image que le modèle identifie comme étant un chat. Parce que vous connaissez le fonctionnement interne du modèle, vous pouvez alors concevoir de très petits changements dans l'image afin que le modèle pense soudainement que ce n'est plus un chat », explique DiCarlo.

Ces distorsions mineures ne trompent généralement pas les humains, mais les modèles de vision par ordinateur ont du mal à gérer ces altérations. Une personne qui regarde le chat subtilement déformé rapporte toujours de manière fiable et robuste qu'il s'agit d'un chat. Mais les modèles standards de vision par ordinateur sont plus susceptibles de confondre le chat avec un chien, voire un arbre.

"Il doit y avoir des différences internes dans la façon dont notre cerveau traite les images, ce qui rend notre vision plus résistante à ce type d'attaques", explique DiCarlo. Et en effet, l’équipe a découvert que lorsqu’elle améliorait son modèle neurologiquement, il devenait plus robuste, identifiant correctement davantage d’images face aux attaques adverses. Le modèle pourrait encore être trompé par des « attaques » plus fortes, mais les gens aussi, dit DiCarlo. Son équipe explore désormais les limites de la robustesse adverse chez les humains.

Il y a quelques années, l'équipe de DiCarlo a découvert qu'elle pouvait également améliorer la résistance d'un modèle aux attaques adverses en concevant la première couche du réseau artificiel pour imiter la première couche de traitement visuel du cerveau. L’une des prochaines étapes clés consiste à combiner ces approches, en créant de nouveaux modèles alignés simultanément sur plusieurs couches de traitement visuel.

Ces nouveaux travaux prouvent une fois de plus qu’un échange d’idées entre les neurosciences et l’informatique peut stimuler le progrès dans les deux domaines. « Tout le monde profite du cycle vertueux passionnant entre l’intelligence naturelle/biologique et l’intelligence artificielle », déclare DiCarlo. "Dans ce cas, les chercheurs en vision par ordinateur et en IA disposent de nouveaux moyens d'atteindre la robustesse, et les neuroscientifiques et les spécialistes des sciences cognitives obtiennent des modèles mécanistes plus précis de la vision humaine."

Ce travail a été soutenu par le MIT-IBM Watson AI Lab, Semiconductor Research Corporation, la US Defence Research Projects Agency, la MIT Shoemaker Fellowship, l'Office of Naval Research des États-Unis, la Fondation Simons et le programme des chaires de recherche du Canada.



Lien source

Laisser une réponse

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

fr_FRFrench