SYNCOGEN: ML Framework for Synthesizable 3D Molecular Generation Integrating Graphs

SYNCOGEN integra generación 3D y rutas sintéticas mediante difusión en grafos y flujos, garantizando moléculas físicamente realistas y sintetizables. Entrenado con 600k compuestos 3D optimizados, supera el 96% en validez y 72% en retrosíntesis. https://tinyurl.com/3pbh2kk4

M
MIIA
editorial
23 de julio de 2025·6 min de lectura
SYNCOGEN: ML Framework for Synthesizable 3D Molecular Generation Integrating Graphs

En el campo moderno del descubrimiento de fármacos, los modelos generativos de diseño molecular han ampliado enormemente el espacio químico disponible, permitiendo explorar nuevos compuestos con rapidez. Sin embargo, un gran desafío persiste: muchas de las moléculas creadas por inteligencia artificial resultan difíciles o imposibles de sintetizar en el laboratorio, lo que limita su utilidad práctica en la industria farmacéutica y química.

Aunque los métodos basados en plantillas, como los árboles de síntesis construidos a partir de modelos de reacción, facilitan el acceso a rutas sintéticas, estos enfoques solo consideran las estructuras moleculares en 2D, sin tener en cuenta la información tridimensional que es fundamental para entender cómo se comportan las moléculas en sistemas biológicos.

Para superar esta limitación, es necesario un marco que integre tanto la estructura 3D como la síntesis química. Los últimos avances en modelos generativos 3D permiten generar directamente coordenadas atómicas, mejorando el diseño basado en geometría y la predicción de propiedades. Sin embargo, la mayoría de estas técnicas no incorporan restricciones de factibilidad sintética de forma sistemática, por lo que los compuestos generados pueden tener formas o propiedades deseables, pero carecen de garantías para ser ensamblados a partir de bloques básicos conocidos mediante reacciones establecidas.

Asegurar la accesibilidad sintética es clave para el éxito en el diseño de fármacos y materiales, lo que demanda soluciones que garanticen simultáneamente una geometría 3D realista y rutas de síntesis viables.

Con ese propósito, un grupo de investigadores de la Universidad de Toronto, Cambridge, McGill y otras instituciones ha presentado SYNCOGEN (Synthesizable Co-Generation), un novedoso sistema que modela conjuntamente tanto las rutas de reacción como las coordenadas atómicas durante la generación molecular. Esta plataforma unificada permite crear estructuras moleculares en 3D junto con rutas sintéticas factibles, asegurando que cada molécula propuesta sea no solo físicamente coherente, sino también sintetizable en la práctica.

Una de las innovaciones clave de SYNCOGEN es su generación multimodal, que combina difusión en grafos enmascarados para representar las reacciones químicas con el ajuste de flujos para las coordenadas atómicas, tomando muestras de la distribución conjunta de bloques moleculares, reacciones químicas y estructuras tridimensionales.

Para representar las moléculas, SYNCOGEN utiliza un esquema triple que incluye: X, que codifica la identidad de los bloques constructores; E, que refleja los tipos de reacción y los centros de conexión específicos; y C, que contiene todas las coordenadas atómicas.

Además, el modelo se entrena simultáneamente para grafos y coordenadas, combinando funciones de pérdida como la entropía cruzada para grafos, error cuadrático medio enmascarado para coordenadas y penalizaciones basadas en distancias entre pares de átomos, con el fin de asegurar que las geometrías sean realistas.

Para entrenar SYNCOGEN, los investigadores desarrollaron SYNSPACE, un dataset con más de 600,000 moléculas sintetizables, construidas a partir de 93 bloques comerciales y 19 tipos de reacciones robustas. Cada molécula incluye múltiples conformaciones 3D minimizadas en energía, sumando más de 3.3 millones de estructuras, lo que garantiza diversidad y fidelidad a la química real.

La construcción del dataset fue un proceso iterativo, ensamblando moléculas paso a paso a partir de bloques básicos, seleccionando centros de reacción compatibles y optimizando las estructuras mediante métodos computacionales para obtener conformaciones químicamente plausibles y con baja energía.

SYNCOGEN se apoya en una arquitectura modificada basada en SEMLAFLOW, una red neuronal equivariante SE(3) diseñada para generación molecular 3D. Incluye mecanismos especializados para traducir entre grafos a nivel de bloques constructores y características a nivel atómico, y utiliza técnicas de entrenamiento que equilibran la precisión en la representación del grafo y la fidelidad estructural 3D, además de manejar variaciones en el número de átomos y aplicar métodos de enmascaramiento y autoconmutación para garantizar moléculas válidas químicamente.

En cuanto a resultados, SYNCOGEN supera a modelos previos en tareas de generación molecular 3D sin condicionamiento. Genera más del 96% de moléculas químicamente válidas y logra tasas de resolución en retrosíntesis de hasta un 72% con software especializado, cifras muy superiores a la mayoría de métodos competidores. Además, las conformaciones producidas reflejan fielmente las distribuciones experimentales de longitudes, ángulos y dihedros de enlace, exhibiendo además bajas energías en interacciones no enlazadas. Un aspecto destacado es su capacidad para generar directamente rutas sintéticas junto con coordenadas 3D, enlazando la química computacional con la síntesis experimental.

SYNCOGEN también muestra un rendimiento competitivo en tareas de diseño molecular como el enlazado de fragmentos, importante para el desarrollo de fármacos. Puede generar análogos fáciles de sintetizar con buenos puntajes de acoplamiento y rutas retrosintéticas manejables, algo que los modelos 3D convencionales no logran.

De cara al futuro, esta tecnología abre posibilidades para generar moléculas condicionadas a propiedades específicas o adaptadas a sitios de unión proteicos, expandir la variedad de bloques y reacciones usadas, y conectar con sistemas robóticos automatizados para un descubrimiento cerrado y acelerado de fármacos y materiales.

En resumen, SYNCOGEN representa un avance importante en el diseño computacional molecular, combinando generación 3D y factibilidad sintética para acercar aún más la creación virtual de moléculas a su realidad experimental. Esta integración promete revolucionar el desarrollo farmacéutico, la ciencia de materiales y otras áreas relacionadas.

¿Qué es SYNCOGEN y qué mejora aporta en la generación de moléculas 3D sintetizables? SYNCOGEN es un marco de modelado generativo que crea simultáneamente tanto las estructuras moleculares tridimensionales como las rutas sintéticas para pequeñas moléculas. Al modelar juntas las gráficas de reacción y las coordenadas atómicas, garantiza que las moléculas generadas sean físicamente realistas y a la vez sintetizables en el laboratorio. Esto supera el límite de modelos anteriores que solo consideraban estructuras 2D o que no tenían en cuenta la accesibilidad sintética.

¿Cómo se entrena SYNCOGEN para asegurar la síntesis y la precisión 3D? Se utiliza el dataset SYNSPACE, que incluye más de 600,000 moléculas sintetizables creadas a partir de bloques y plantillas de reacción confiables, cada una con múltiples conformaciones 3D optimizadas. Durante el entrenamiento, SYNCOGEN aplica difusión en grafos enmascarados y ajuste de flujos para las coordenadas, con funciones de pérdida que combinan entropía cruzada para grafos y error cuadrático medio para las coordenadas, además de penalizaciones para mantener la fidelidad geométrica. También emplea restricciones en el número de enlaces y enmascaramientos para garantizar la validez química de las moléculas generadas.

¿Cuáles son las aplicaciones principales y perspectivas para SYNCOGEN en la investigación farmacéutica y química? SYNCOGEN establece un nuevo estándar para la generación de moléculas 3D con rutas sintéticas accesibles, facilitando el diseño de fármacos, el enlazado de fragmentos y plataformas de síntesis automatizada. En el futuro, se espera que permita generar moléculas condicionadas por propiedades específicas o adaptadas a sitios proteicos, ampliar su base de reacciones y bloques, y conectarse con robots de laboratorio para optimizar la síntesis y el análisis de compuestos.

fuente original
https://www.marktechpost.com/2025/07/23/syncogen-a-machine-learning-framework-for-synthesizable-3d-molecular-generation-through-joint-graph-and-coordinate-modeling/
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #modelos generativos · #síntesis molecular · #diseño de fármacos
Prueba MIIA gratis →
WhatsApp