dots.ocr es un modelo de código abierto basado en transformers que combina visión y lenguaje para el análisis multilingüe de documentos, integrando reconocimiento óptico de caracteres (OCR) y detección de layouts en una sola arquitectura. Soporta más de 100 idiomas y puede trabajar con una amplia variedad de documentos, tanto estructurados como no estructurados.

La clave de dots.ocr está en su diseño unificado, que fusiona la detección de la estructura del documento y el reconocimiento de contenido en un solo modelo de red neuronal, evitando así la complejidad de usar sistemas separados para cada tarea. Esto permite cambiar entre tareas simplemente ajustando las indicaciones de entrada. Cuenta con 1.700 millones de parámetros, lo que ofrece un buen balance entre capacidad de procesamiento y eficiencia para la mayoría de aplicaciones prácticas. Puede recibir como entrada imágenes o documentos PDF, incluyendo opciones de preprocesamiento para mejorar la calidad en archivos con baja resolución o con muchas páginas densas.

En cuanto a sus funcionalidades, dots.ocr está entrenado con datos en más de 100 lenguas, desde idiomas comunes hasta escrituras menos habituales, garantizando así un soporte multilingüe amplio. Además, es capaz de extraer texto plano, datos tabulares, fórmulas matemáticas en formato LaTeX, y respetar el orden de lectura original del documento. La salida puede presentarse en formatos estructurados como JSON, Markdown o HTML, según el tipo de contenido y disposición. También mantiene la estructura del documento, incluyendo límites de tablas, zonas de fórmulas y ubicaciones de imágenes, para asegurar que la información extraída refleja fielmente el original.

En pruebas comparativas contra otros sistemas modernos de inteligencia artificial para documentos, dots.ocr sobresale especialmente en el análisis de tablas, alcanzando un 88.6% de precisión frente al 85.8% de Gemini2.5-Pro. Además, muestra una menor distancia de edición en texto, lo que indica mayor precisión en el reconocimiento de caracteres. En cuanto a fórmulas y reconstrucción de la estructura, iguala o supera a los modelos líderes.

Este modelo de código abierto se distribuye bajo licencia MIT, con todo el código, documentación y modelos preentrenados disponibles en GitHub. Se puede instalar fácilmente mediante pip, Conda o Docker y ofrece flexibilidad para configurarse a través de plantillas de indicaciones, funcionando tanto de forma interactiva como en flujos automatizados para procesar lotes de documentos. Los resultados pueden usarse programáticamente en JSON y también cuentan con opciones para visualización de layouts detectados en formatos Markdown o HTML.

En resumen, dots.ocr es una solución robusta y de alta precisión para el análisis multilingüe de documentos, ideal para entornos que requieren un procesamiento eficiente y adaptable a distintos idiomas y tipos de contenido, todo dentro de una única arquitectura abierta y accesible.

↗

fuente original

https://www.marktechpost.com/2025/08/16/meet-dots-ocr-a-new-1-7b-vision-language-model-that-achieves-sota-performance-on-multilingual-document-parsing/

ver →

etiquetas:ocr multilingüe procesamiento de documentos modelos de inteligencia artificial visión y lenguaje documentos estructurados y no estructurados análisis de tablas y fórmulas código abierto