Desde cámaras hasta vehículos autónomos, muchas de las tecnologías actuales dependen de la inteligencia artificial para extraer significado de la información visual. La tecnología de IA actual tiene redes neuronales artificiales en su núcleo, y la mayoría de las veces podemos confiar en que estos sistemas de visión por computadora de IA ven las cosas como nosotros, pero a veces fallan. Según los científicos investigadores del MIT y de IBM, una forma de mejorar la visión por computadora es ordenar a las redes neuronales artificiales de las que dependen que imiten deliberadamente la forma en que la red neuronal biológica del cerebro procesa las imágenes visuales.
Investigadores dirigidos por el profesor del MIT James DiCarlo, director de Quest for Intelligence del MIT y miembro del Laboratorio de IA Watson del MIT-IBM, han creado un modelo de visión por computadora más robusto entrenándolo para que funcione como una parte del cerebro en la que los humanos y otros primates confían para el reconocimiento de objetos. Este mes de mayo, en la Conferencia Internacional sobre Representaciones del Aprendizaje, el equipo informó que cuando entrenaron una red neuronal artificial utilizando patrones de actividad neuronal en la corteza temporal inferior (IT) del cerebro, la red neuronal artificial fue más capaz de identificar objetos en imágenes que un modelo que carecía de ese entrenamiento neuronal. Y las interpretaciones de las imágenes por parte del modelo coincidían más estrechamente con lo que veían los humanos, incluso cuando las imágenes incluían distorsiones menores que hacían la tarea más difícil.
Comparando circuitos neuronales
Muchas de las redes neuronales artificiales utilizadas para la visión por computadora ya se parecen a los circuitos cerebrales de múltiples capas que procesan la información visual en humanos y otros primates. Al igual que el cerebro, utilizan unidades similares a neuronas que trabajan juntas para procesar información. A medida que son entrenados para una tarea particular, estos componentes en capas procesan colectiva y progresivamente la información visual para completar la tarea, determinando, por ejemplo, que una imagen representa un oso, un automóvil o un árbol.
DiCarlo y otros encontrado previamente que cuando estos sistemas de visión por computadora de aprendizaje profundo establecen formas eficientes de resolver problemas visuales, terminan con circuitos artificiales que funcionan de manera similar a los circuitos neuronales que procesan la información visual en nuestro propio cerebro. Es decir, resultan ser modelos científicos sorprendentemente buenos de los mecanismos neuronales que subyacen a la visión humana y de primates.
Esa semejanza está ayudando a los neurocientíficos a profundizar su comprensión del cerebro. Al demostrar formas en que se puede procesar la información visual para dar sentido a las imágenes, los modelos computacionales sugieren hipótesis sobre cómo el cerebro podría realizar la misma tarea. A medida que los desarrolladores continúan perfeccionando los modelos de visión por computadora, los neurocientíficos han encontrado nuevas ideas para explorar en su propio trabajo.
“A medida que los sistemas de visión mejoran su rendimiento en el mundo real, algunos de ellos resultan ser más humanos en su procesamiento interno. Esto es útil desde el punto de vista de la comprensión de la biología”, afirma DiCarlo, que también es profesor de ciencias cerebrales y cognitivas e investigador en el Instituto McGovern para la Investigación del Cerebro.
Diseñar una IA más parecida a un cerebro
Si bien su potencial es prometedor, los sistemas de visión por computadora aún no son modelos perfectos de la visión humana. DiCarlo sospechaba que una forma de mejorar la visión por computadora podría ser incorporar características específicas similares al cerebro en estos modelos.
Para probar esta idea, él y sus colaboradores construyeron un modelo de visión por computadora utilizando datos neuronales previamente recopilados de las neuronas que procesan la visión en la corteza TI del mono, una parte clave de la vía visual ventral de los primates involucrada en el reconocimiento de objetos, mientras los animales miraban. varias imágenes. Más específicamente, Joel Dapello, estudiante graduado de la Universidad de Harvard y ex pasante del Laboratorio de IA Watson del MIT-IBM; y Kohitij Kar, profesor asistente y catedrático de investigación de Canadá (neurociencia visual) en la Universidad de York y científico visitante en el MIT; en colaboración con David Cox, vicepresidente de modelos de IA de IBM Research y director de IBM del MIT-IBM Watson AI Lab; y otros investigadores de IBM Research y el MIT pidieron a una red neuronal artificial que emulara el comportamiento de estas neuronas de procesamiento de la visión de primates mientras la red aprendía a identificar objetos en una tarea de visión por computadora estándar.
"En efecto, le dijimos a la red: 'Por favor, resuelva esta tarea estándar de visión por computadora, pero también haga que la función de una de sus capas 'neurales' internas simuladas sea lo más similar posible a la función de la capa neuronal biológica correspondiente. '”, explica DiCarlo. "Le pedimos que hiciera ambas cosas lo mejor que pudiera". Esto obligó a los circuitos neuronales artificiales a encontrar una forma diferente de procesar la información visual que el enfoque estándar de visión por computadora, dice.
Después de entrenar el modelo artificial con datos biológicos, el equipo de DiCarlo comparó su actividad con un modelo de red neuronal de tamaño similar entrenado sin datos neuronales, utilizando el enfoque estándar para visión por computadora. Descubrieron que el nuevo modelo de capa de TI, biológicamente informado, era, según las instrucciones, una mejor combinación para los datos neuronales de TI. Es decir, para cada imagen probada, la población de neuronas TI artificiales en el modelo respondió de manera más similar a la población correspondiente de neuronas TI biológicas.
Los investigadores también encontraron que el modelo de TI también coincidía mejor con los datos neuronales de TI recopilados de otro mono, a pesar de que el modelo nunca había visto datos de ese animal, e incluso cuando esa comparación se evaluó en las respuestas de TI de ese mono a nuevas imágenes. Esto indicó que el nuevo modelo informático "neuralmente alineado" del equipo puede ser un modelo mejorado de la función neurobiológica de la corteza TI de los primates, un hallazgo interesante, dado que hasta ahora se desconocía si la cantidad de datos neuronales que se pueden recopilar actualmente El sistema visual de los primates es capaz de guiar directamente el desarrollo del modelo.
Con su nuevo modelo informático en mano, el equipo preguntó si el procedimiento de "alineación neuronal de TI" también conduce a cambios en el rendimiento conductual general del modelo. De hecho, descubrieron que el modelo alineado neuronalmente tenía un comportamiento más parecido al humano: tendía a tener éxito en categorizar correctamente los objetos en imágenes en las que los humanos también tenían éxito, y tendía a fallar cuando los humanos también fallaban.
Ataques adversarios
El equipo también descubrió que el modelo alineado neuronalmente era más resistente a los "ataques adversarios" que los desarrolladores utilizan para probar la visión por computadora y los sistemas de inteligencia artificial. En la visión por computadora, los ataques adversarios introducen pequeñas distorsiones en las imágenes que pretenden engañar a una red neuronal artificial.
“Digamos que tienes una imagen que el modelo identifica como un gato. Como conoces el funcionamiento interno del modelo, puedes diseñar cambios muy pequeños en la imagen para que el modelo de repente piense que ya no es un gato”, explica DiCarlo.
Estas distorsiones menores no suelen engañar a los humanos, pero los modelos de visión por computadora luchan con estas alteraciones. Una persona que mira al gato sutilmente distorsionado afirma de manera fiable y contundente que se trata de un gato. Pero es más probable que los modelos estándar de visión por computadora confundan al gato con un perro, o incluso con un árbol.
"Debe haber algunas diferencias internas en la forma en que nuestros cerebros procesan imágenes que hacen que nuestra visión sea más resistente a ese tipo de ataques", dice DiCarlo. Y, de hecho, el equipo descubrió que cuando hicieron que su modelo estuviera más alineado neuronalmente, se volvió más robusto, identificando correctamente más imágenes frente a ataques adversarios. El modelo aún podría ser engañado por “ataques” más fuertes, pero también pueden hacerlo las personas, dice DiCarlo. Su equipo ahora está explorando los límites de la robustez adversaria en humanos.
Hace unos años, el equipo de DiCarlo descubrió que también podían mejorar la resistencia de un modelo a los ataques adversarios diseñando la primera capa de la red artificial para emular la capa de procesamiento visual inicial en el cerebro. Un siguiente paso clave es combinar estos enfoques, creando nuevos modelos que estén alineados neuronalmente simultáneamente en múltiples capas de procesamiento visual.
El nuevo trabajo es una prueba más de que un intercambio de ideas entre la neurociencia y la informática puede impulsar el progreso en ambos campos. "Todo el mundo obtiene algo del apasionante círculo virtuoso entre la inteligencia natural/biológica y la inteligencia artificial", dice DiCarlo. "En este caso, los investigadores de visión por computadora e inteligencia artificial obtienen nuevas formas de lograr solidez, y los neurocientíficos y científicos cognitivos obtienen modelos mecanicistas más precisos de la visión humana".
Este trabajo fue apoyado por el MIT-IBM Watson AI Lab, Semiconductor Research Corporation, la Agencia de Proyectos de Investigación de Defensa de EE. UU., la Beca Shoemaker del MIT, la Oficina de Investigación Naval de EE. UU., la Fundación Simons y el Programa de Cátedra de Investigación de Canadá.
Deja una respuesta