La biología es un tapiz maravilloso pero delicado. En el corazón está el ADN, el maestro tejedor que codifica las proteínas, responsable de orquestar las numerosas funciones biológicas que sustentan la vida dentro del cuerpo humano. Sin embargo, nuestro cuerpo es como un instrumento afinado, susceptible de perder su armonía. Después de todo, nos enfrentamos a un mundo natural implacable y en constante cambio: patógenos, virus, enfermedades y cáncer.
Imagínese si pudiéramos acelerar el proceso de creación de vacunas o medicamentos para patógenos recién surgidos. ¿Qué pasaría si tuviéramos tecnología de edición de genes capaz de producir automáticamente proteínas para rectificar los errores del ADN que causan cáncer? La búsqueda para identificar proteínas que puedan unirse fuertemente a objetivos o acelerar reacciones químicas es vital para el desarrollo de fármacos, el diagnóstico y numerosas aplicaciones industriales, pero a menudo es una tarea prolongada y costosa.
Para mejorar nuestras capacidades en ingeniería de proteínas, los investigadores del MIT CSAIL crearon "FrameDiff", una herramienta computacional para crear nuevas estructuras de proteínas más allá de lo que la naturaleza ha producido. El enfoque de aprendizaje automático genera "marcos" que se alinean con las propiedades inherentes de las estructuras proteicas, lo que le permite construir nuevas proteínas independientemente de los diseños preexistentes, facilitando estructuras proteicas sin precedentes.
“En la naturaleza, el diseño de proteínas es un proceso de combustión lenta que lleva millones de años. Nuestra técnica tiene como objetivo proporcionar una respuesta para abordar los problemas creados por el hombre que evolucionan mucho más rápido que el ritmo de la naturaleza”, dice Jason Yim, estudiante de doctorado del MIT CSAIL, autor principal de un nuevo artículo sobre el trabajo. “El objetivo, con respecto a esta nueva capacidad de generar estructuras proteicas sintéticas, abre un sinfín de capacidades mejoradas, como mejores aglutinantes. Esto significa diseñar proteínas que puedan unirse a otras moléculas de manera más eficiente y selectiva, con implicaciones generalizadas relacionadas con la administración dirigida de fármacos y la biotecnología, donde podría resultar en el desarrollo de mejores biosensores. También podría tener implicaciones para el campo de la biomedicina y más allá, ofreciendo posibilidades como el desarrollo de proteínas de fotosíntesis más eficientes, la creación de anticuerpos más eficaces y la ingeniería de nanopartículas para terapia génica”.
Encuadre FrameDiff
Las proteínas tienen estructuras complejas, formadas por muchos átomos conectados por enlaces químicos. Los átomos más importantes que determinan la forma tridimensional de la proteína se denominan "columna vertebral", algo así como la columna vertebral de la proteína. Cada triplete de átomos a lo largo de la columna vertebral comparte el mismo patrón de enlaces y tipos de átomos. Los investigadores notaron que este patrón se puede aprovechar para construir algoritmos de aprendizaje automático utilizando ideas de geometría diferencial y probabilidad. Aquí es donde entran los marcos: Matemáticamente, estos tripletes se pueden modelar como cuerpos rígidos llamados “marcos” (comunes en física) que tienen una posición y una rotación en 3D.
Estos marcos dotan a cada triplete de información suficiente para conocer su entorno espacial. Luego, la tarea es que un algoritmo de aprendizaje automático aprenda cómo mover cada cuadro para construir una columna vertebral de proteína. Al aprender a construir proteínas existentes, se espera que el algoritmo se generalice y pueda crear nuevas proteínas nunca antes vistas en la naturaleza.
Entrenar un modelo para construir proteínas mediante “difusión” implica inyectar ruido que mueve aleatoriamente todos los fotogramas y difumina el aspecto de la proteína original. El trabajo del algoritmo es mover y rotar cada cuadro hasta que se parezca a la proteína original. Aunque simple, el desarrollo de la difusión en marcos requiere técnicas de cálculo estocástico en variedades de Riemann. Desde el punto de vista teórico, los investigadores desarrollaron la “difusión SE(3)” para aprender distribuciones de probabilidad que conectan de manera no trivial los componentes de traslación y rotación de cada cuadro.
El sutil arte de la difusión.
En 2021, DeepMind presentó AlphaFold2, un algoritmo de aprendizaje profundo para predecir estructuras de proteínas 3D a partir de sus secuencias. A la hora de crear proteínas sintéticas, hay dos pasos esenciales: generación y predicción. Generación significa la creación de nuevas estructuras y secuencias de proteínas, mientras que "predicción" significa descubrir cuál es la estructura tridimensional de una secuencia. No es coincidencia que AlphaFold2 también haya utilizado marcos para modelar proteínas. SE(3) diffusion y FrameDiff se inspiraron para llevar la idea de fotogramas más allá incorporando fotogramas en modelos de difusión, una técnica de IA generativa que se ha vuelto inmensamente popular en la generación de imágenes, como Midjourney, por ejemplo.
Los marcos y principios compartidos entre la generación y predicción de estructuras de proteínas significaron que los mejores modelos de ambos extremos eran compatibles. En colaboración con el Instituto de Diseño de Proteínas de la Universidad de Washington, la difusión SE(3) ya se está utilizando para crear y validar experimentalmente nuevas proteínas. Específicamente, combinaron la difusión SE(3) con RosettaFold2, una herramienta de predicción de la estructura de proteínas muy parecida a AlphaFold2, lo que condujo a la "RFdiffusión". Esta nueva herramienta acercó a los diseñadores de proteínas a la solución de problemas cruciales en biotecnología, incluido el desarrollo de aglutinantes de proteínas altamente específicos para el diseño acelerado de vacunas, la ingeniería de proteínas simétricas para la administración de genes y un andamiaje de motivos robusto para un diseño enzimático preciso.
Los esfuerzos futuros de FrameDiff implican mejorar la generalidad de los problemas que combinan múltiples requisitos para productos biológicos como los medicamentos. Otra extensión es generalizar los modelos a todas las modalidades biológicas, incluido el ADN y las moléculas pequeñas. El equipo postula que al ampliar la capacitación de FrameDiff sobre datos más sustanciales y mejorar su proceso de optimización, podría generar estructuras fundamentales con capacidades de diseño a la par de RFdiffusion, preservando al mismo tiempo la simplicidad inherente de FrameDiff.
"Descartar un modelo de predicción de estructuras previamente entrenado [en FrameDiff] abre posibilidades para generar rápidamente estructuras que se extiendan a grandes longitudes", dice el biólogo computacional de la Universidad de Harvard Sergey Ovchinnikov. El enfoque innovador de los investigadores ofrece un paso prometedor hacia la superación de las limitaciones de los modelos de predicción de estructuras actuales. Aunque todavía se trata de un trabajo preliminar, es un paso alentador en la dirección correcta. Como tal, la visión del diseño de proteínas, que desempeña un papel fundamental a la hora de abordar los desafíos más apremiantes de la humanidad, parece cada vez más alcanzable, gracias al trabajo pionero de este equipo de investigación del MIT”.
Yim escribió el artículo junto con el postdoctorado de la Universidad de Columbia, Brian Trippe, el investigador del Centro Nacional Francés de Investigación Científica en París, el Centro para la Ciencia de los Datos, Valentin De Bortoli, el postdoctorado de la Universidad de Cambridge, Emile Mathieu, y el profesor de estadística de la Universidad de Oxford y científico investigador senior en DeepMind, Arnaud Doucet. . Los profesores del MIT Regina Barzilay y Tommi Jaakkola asesoraron la investigación.
El trabajo del equipo fue apoyado, en parte, por la Clínica Abdul Latif Jameel del MIT para el Aprendizaje Automático en Salud, subvenciones EPSRC y una Asociación de Prosperidad entre Microsoft Research y la Universidad de Cambridge, el Programa de Becas de Investigación para Graduados de la Fundación Nacional de Ciencias, la subvención NSF Expeditions y el Aprendizaje Automático. para el consorcio de Síntesis y Descubrimiento Farmacéutico, el programa DTRA Descubrimiento de Contramedidas Médicas Contra Amenazas Nuevas y Emergentes, el programa DARPA Accelerated Molecular Discovery y la subvención de Diseño Computacional de Anticuerpos Sanofi. Esta investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático en julio.
Deja una respuesta