Google AI, en colaboración con el Instituto de Genómica de la UC Santa Cruz, ha presentado DeepPolisher, una innovadora herramienta basada en aprendizaje profundo que mejora significativamente la precisión de los ensamblajes genómicos al corregir errores a nivel de bases. Su eficacia se ha demostrado recientemente en el avance del Human Pangenome Reference, un hito importante en la investigación genética.
El reto de ensamblar genomas precisos
Un genoma de referencia es fundamental para entender la diversidad genética, la herencia, las enfermedades y la evolución. Aunque las tecnologías de secuenciación modernas, como las de Illumina y Pacific Biosciences, han mejorado notablemente la precisión y el volumen de datos, obtener un genoma humano sin errores —que contiene más de 3 mil millones de nucleótidos— sigue siendo una tarea muy compleja. Incluso una pequeña tasa de error por base puede generar miles de equivocaciones, lo que dificulta identificar variaciones genéticas clave o puede desviar los análisis posteriores.
¿Qué es DeepPolisher?
DeepPolisher es una herramienta de código abierto basada en transformadores, un tipo de arquitectura de aprendizaje profundo. Inspirándose en avances previos como DeepConsensus, esta herramienta reduce aún más los errores en el ensamblaje genómico, especialmente aquellos causados por inserciones y deleciones (indels). Estos errores son críticos porque pueden modificar el marco de lectura y hacer que genes o elementos reguladores importantes pasen desapercibidos en las anotaciones.
La tecnología de DeepPolisher utiliza un transformador de solo codificador, adaptando técnicas probadas en el procesamiento de lenguaje natural para aplicarlas a la genómica. Se entrenó con datos altamente confiables de una línea celular humana bien caracterizada por NIST y NHGRI, secuenciada con distintas plataformas para alcanzar una precisión casi perfecta —alrededor del 99.99999%, que equivale a entre 300 y 1,000 errores en 6 mil millones de bases.
¿Cómo funciona DeepPolisher?
Primero, toma como entrada las lecturas PacBio HiFi alineadas con un ensamblaje genómico separado por haplotipos. Luego, analiza el ensamblaje en ventanas de 25 kb para detectar posibles sitios con errores, identificando discrepancias entre las lecturas y la secuencia ensamblada. Para cada región con posibles errores menores a 100 bases, crea una representación en forma de tensor multicanal que incluye información como la base, su calidad, calidad de mapeo y coincidencias o diferencias.
Estos datos se introducen en el modelo transformador, que predice la secuencia corregida en esas áreas. Finalmente, DeepPolisher genera las correcciones en formato VCF, que se aplican al ensamblaje utilizando herramientas como bcftools para obtener una secuencia pulida y altamente precisa.
Resultados y beneficios
DeepPolisher ofrece mejoras relevantes:
- Reduce el total de errores en aproximadamente un 50%. - Disminuye los errores de inserción y deleción en más de un 70%. - Alcanza una tasa de error de solo una base errónea por cada 500,000 bases ensambladas en su uso real con el Human Pangenome Reference Consortium (HPRC). - Mejora la calidad del ensamblaje, elevando el Q-score de 66.7 a 70.1 en promedio —un Q-score más alto indica menor tasa de error y, en este caso, significa menos de un error por cada 12 millones de nucleótidos.
Todos los ejemplos analizados por HPRC mostraron una mejora notable. Estos avances fortalecen la confiabilidad de referencias genómicas tan importantes como el Human Pangenome Reference, que ahora cuenta con un volumen de datos cinco veces mayor y errores notablemente disminuidos gracias a DeepPolisher.
Aplicaciones y uso
DeepPolisher ya forma parte de proyectos clave. En la segunda liberación de datos del HPRC, se utilizó para generar ensamblajes de referencia de alta precisión para 232 individuos, representando una amplia diversidad ancestral. Está disponible de forma abierta en GitHub, con estudios de caso y flujos de trabajo en contenedores Docker que facilitan su uso con ensambladores como HiFiasm y lecturas PacBio HiFi.
Aunque inicialmente se centró en el genoma humano, su estructura es adaptable a otros organismos y plataformas de secuenciación, ayudando a mejorar la precisión en toda la comunidad genómica.
Ejemplo de flujo de trabajo
Usar DeepPolisher típicamente implica:
- Entrada: ensamblaje diploide generado por HiFiasm y lecturas PacBio HiFi, alineadas por fases con el pipeline PHARAOH. - Ejecución: comandos empaquetados en Docker para crear imágenes, realizar inferencia y aplicar correcciones. - Salida: archivos VCF separados para ensamblajes materno y paterno, y secuencias pulidas en formato FASTA luego de aplicar el consenso con bcftools. - Evaluación: utilización de herramientas de benchmarking como dipcall y Hap.py para medir mejoras en errores y precisión de variantes.
Conclusión
DeepPolisher representa un salto significativo en la tecnología de pulido genómico. Al reducir drásticamente la tasa de errores, abre la puerta a estudios funcionales más detallados, la detección de variantes raras y aplicaciones clínicas con mayor confianza. Al superar uno de los últimos obstáculos para conseguir ensamblajes genómicos perfectos, esta herramienta impulsa diagnósticos más precisos y amplía el potencial de proyectos de referencia genómica que beneficiarán tanto la investigación biomédica como la medicina del futuro.



