¿Qué sigue en el diseño de proteínas? Investigadores de Microsoft presentan EvoDiff: un marco de IA innovador para la ingeniería de proteínas basada en la secuencia


Los modelos generativos profundos se están convirtiendo en herramientas cada vez más potentes cuando se trata de la creación in silico de nuevas proteínas. Los modelos de difusión, una clase de modelos generativos que recientemente se ha demostrado que generan proteínas fisiológicamente plausibles distintas de cualquier proteína real vista en la naturaleza, permiten una capacidad y un control incomparables en el diseño de proteínas de novo. Sin embargo, los modelos actuales de última generación construyen estructuras de proteínas, lo que limita gravemente la amplitud de sus datos de entrenamiento y confina a las generaciones a una fracción pequeña y sesgada del espacio de diseño de proteínas. Los investigadores de Microsoft desarrollaron EvoDiff, un marco de difusión de propósito general que permite la creación de proteínas sintonizables en el espacio de secuencia combinando datos a escala evolutiva con las distintas capacidades de acondicionamiento de los modelos de difusión. EvoDiff puede hacer que las proteínas estructuralmente plausibles sean variadas, cubriendo toda la gama de secuencias y funciones posibles. La universalidad de la formulación basada en secuencias queda demostrada por el hecho de que EvoDiff puede construir proteínas inaccesibles para modelos basados en estructuras, como aquellos con secciones desordenadas, y al mismo tiempo puede diseñar andamios para motivos estructurales útiles. Esperan que EvoDiff allane el camino para un diseño programable que priorice la secuencia en ingeniería de proteínas, lo que les permitirá ir más allá del paradigma estructura-función. 

EvoDiff es un novedoso sistema de modelado generativo para la creación de proteínas programables a partir de datos de secuencia únicamente, desarrollado combinando conjuntos de datos a escala evolutiva con modelos de difusión. Utilizan un marco de difusión discreto en el que un proceso directo corrompe iterativamente una secuencia de proteínas cambiando sus identidades de aminoácidos, y un proceso inverso aprendido, parametrizado por una red neuronal, predice los cambios realizados en cada iteración, aprovechando el marco natural de proteínas como secuencias de tokens discretos sobre un lenguaje de aminoácidos.

Las secuencias de proteínas se pueden crear desde cero utilizando el método invertido. En comparación con las formulaciones de difusión continua utilizadas tradicionalmente en el diseño de estructuras de proteínas, la formulación de difusión discreta utilizada en EvoDiff se destaca como una mejora matemática significativa. Las alineaciones de secuencias múltiples (MSA) resaltan patrones de conservación y variación en las secuencias de aminoácidos de grupos de proteínas relacionadas, capturando así vínculos evolutivos más allá de los conjuntos de datos a escala evolutiva de secuencias de proteínas individuales. Para aprovechar esta profundidad adicional de información evolutiva, construyen modelos de difusión discretos entrenados en MSA para producir nuevas líneas individuales.

Para ilustrar su eficacia en el diseño de proteínas sintonizables, los investigadores examinan la secuencia y los modelos MSA (EvoDiff-Seq y EvoDiff-MSA, respectivamente) en un espectro de actividades de generación. Comienzan demostrando que EvoDiff-Seq produce de manera confiable proteínas variadas y de alta calidad que reflejan con precisión la composición y función de las proteínas en la naturaleza. EvoDiff-MSA permite el desarrollo guiado de nuevas secuencias alineando proteínas con historias evolutivas similares pero únicas. Finalmente, muestran que EvoDiff puede generar de manera confiable proteínas con IDR, superando directamente una limitación clave de los modelos generativos basados en estructuras, y puede generar andamios para motivos estructurales funcionales sin ninguna información estructural explícita aprovechando las capacidades de acondicionamiento del marco de modelado basado en difusión. y su puesta a tierra en un espacio de diseño universal.

Para generar proteínas nuevas y diversas con posibilidad de acondicionamiento basado en limitaciones de secuencia, los investigadores presentan EvoDiff, un marco de modelado de difusión. Al desafiar un paradigma de diseño de proteínas basado en estructuras, EvoDiff puede muestrear incondicionalmente diversidad de proteínas estructuralmente plausibles generando áreas intrínsecamente desordenadas y armando motivos estructurales a partir de datos de secuencia. En la evolución de secuencias de proteínas, EvoDiff es el primer marco de aprendizaje profundo que muestra la eficacia del modelado generativo de difusión.

El condicionamiento mediante guía, en el que las secuencias creadas se pueden ajustar iterativamente para cumplir con las cualidades deseadas, podría agregarse a estas capacidades en estudios futuros. El marco EvoDiff-D3PM es natural para el acondicionamiento mediante guía para trabajar porque la identidad de cada residuo en una secuencia se puede editar en cada paso de decodificación. Sin embargo, los investigadores han observado que OADM generalmente supera a D3PM en generación incondicional, probablemente porque la tarea de eliminación de ruido de OADM es más fácil de aprender que la de D3PM. Desafortunadamente, la efectividad de la guía se ve reducida por OADM y otros modelos LRAR condicionales preexistentes como ProGen (54). Se espera que se generen nuevas secuencias de proteínas acondicionando EvoDiff-D3PM con objetivos funcionales, como los descritos por los clasificadores de función de secuencia.

Los requisitos mínimos de datos de EvoDiff significan que se puede adaptar fácilmente para usos posteriores, lo que sólo sería posible con un enfoque basado en estructuras. Los investigadores han demostrado que EvoDiff puede crear IDR mediante inpainting sin necesidad de realizar ajustes, evitando el error clásico de los modelos generativos y predictivos basados en estructuras. El alto costo de obtener estructuras para grandes conjuntos de datos de secuenciación puede impedir que los investigadores utilicen nuevas opciones de diseño biológico, medicinal o científico que podrían desbloquearse ajustando EvoDiff en conjuntos de datos de aplicaciones específicas, como los de bibliotecas de visualización o pantallas de gran escala. Aunque AlphaFold y los algoritmos relacionados pueden predecir estructuras para muchas secuencias, tienen dificultades con las mutaciones puntuales y pueden tener exceso de confianza al indicar estructuras para proteínas espurias.

Los investigadores han mostrado varias formas de acondicionar la producción mediante andamios y pintura interna; sin embargo, EvoDiff puede estar condicionado al texto, información química u otras modalidades para proporcionar un control mucho más detallado sobre la función de las proteínas. En el futuro, este concepto de diseño de secuencia de proteínas sintonizable se utilizará de diversas formas. Por ejemplo, se podrían utilizar factores de transcripción o endonucleasas diseñados condicionalmente para modular los ácidos nucleicos mediante programación; los productos biológicos podrían optimizarse para su entrega y tráfico in vivo; y el ajuste cero de la especificidad enzima-sustrato podría abrir vías completamente nuevas para la catálisis.

Conjuntos de datos

Uniref50 es un conjunto de datos que contiene alrededor de 42 millones de secuencias de proteínas utilizadas por los investigadores. Los MSA provienen del conjunto de datos OpenFold, que incluye 16.000.000 clústeres UniClust30 y 401.381 MSA que cubren 140.000 cadenas PDB distintas. La información sobre las IDR (regiones intrínsecamente desordenadas) provino de GitHub de homología inversa.

Los investigadores emplean líneas de base de RFDiffusion para el desafío de los motivos estructurales de los andamios. En la carpeta de ejemplos/scaffolding-pdbs, encontrará archivos pdb y fasta que se pueden usar para generar secuencias de forma condicional. La carpeta de ejemplos/scaffolding-msas también incluye archivos pdb que se pueden usar para crear MSA según ciertas condiciones.

Modelos actuales

Los investigadores examinaron ambos para decidir qué técnica directa de difusión sobre modalidades de datos discretos sería más eficiente. Un aminoácido se transforma en una ficha de máscara única en cada paso audaz de la distribución autorregresiva independiente del orden OADM. La secuencia completa se oculta después de un cierto número de etapas. El grupo también desarrolló modelos probabilísticos de difusión de eliminación de ruido discretos (D3PM), específicamente para secuencias de proteínas. Durante la fase directa de EvoDiff-D3PM, las líneas se corrompen mediante mutaciones de muestreo de acuerdo con una matriz de transición. Esto continúa hasta que la secuencia ya no se puede distinguir de una muestra uniforme en todos los aminoácidos, lo que ocurre después de varios pasos. En todos los casos, la fase de recuperación implica volver a entrenar un modelo de red neuronal para deshacer el daño. Para EvoDiff-OADM y EvoDiff-D3PM, el modelo entrenado puede producir nuevas secuencias a partir de secuencias de tokens enmascarados o aminoácidos muestreados uniformemente. Utilizando la arquitectura de red neuronal convolucional dilatada vista por primera vez en el modelo de lenguaje enmascarado de proteína CARP, entrenaron todos los modelos de secuencia EvoDiff en secuencias 42M de UniRef50. Para cada esquema de corrupción directa y decodificación LRAR, desarrollaron versiones con parámetros entrenados 38M y 640M.

Características clave

  • Para generar secuencias de proteínas manejables, EvoDiff incorpora datos a escala evolutiva con modelos de difusión. 
  • EvoDiff puede hacer que las proteínas estructuralmente plausibles sean variadas, cubriendo toda la gama de secuencias y funciones posibles.
  • Además de generar proteínas con secciones desordenadas y otras características inaccesibles a los modelos basados en estructuras, EvoDiff también puede producir andamios para motivos estructurales funcionales, lo que demuestra la aplicabilidad general de la formulación basada en secuencias.

En conclusión, los científicos de Microsoft han publicado un conjunto de modelos de difusión discretos que pueden utilizarse para desarrollar la ingeniería y el diseño de proteínas basados en secuencias. Es posible ampliar los modelos EvoDiff para el diseño guiado basado en estructura o función, y se pueden utilizar inmediatamente para la creación incondicional, condicionada y guiada por la evolución de secuencias de proteínas. Esperan que al leer y escribir procesos directamente en el lenguaje de las proteínas, EvoDiff abra nuevas posibilidades en la creación de proteínas programables.


Revisar la Papel preimpreso y GitHubTodo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónico, donde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


20221028 101632 Dhanshree Shenwai

Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.




Enlace fuente

Deja una respuesta

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *

Puede utilizar estas etiquetas y atributos HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

es_ESSpanish