NuMind AI ha lanzado oficialmente NuMarkdown-8B-Thinking, un modelo de visión y lenguaje (VLM) de código abierto bajo licencia MIT que revoluciona la digitalización y estructuración de documentos complejos. A diferencia de los sistemas OCR tradicionales, este modelo no se limita a extraer texto, sino que analiza el diseño, la estructura y el formato del documento para generar un archivo Markdown exacto y listo para usar.

Esto lo convierte en el primer modelo VLM con capacidad de razonamiento diseñado especialmente para convertir PDFs, documentos escaneados y hojas de cálculo en Markdown limpio y estructurado. Es perfecto para flujos de trabajo de generación aumentada por recuperación (RAG), bases de conocimiento impulsadas por IA y archivado masivo de documentos.

¿Qué hace diferente a NuMarkdown-8B-Thinking?

El modelo adopta un enfoque de razonamiento previo al OCR. En lugar de simplemente presentar el texto extraído, genera “tokens de pensamiento”, que son pasos internos de razonamiento que le permiten comprender la disposición del documento antes de crear el resultado final.

Gracias a esto, puede manejar formatos y estructuras que suelen desafiar a la mayoría de los sistemas OCR, incluso aquellos con IA, incluyendo:

- Diseños de varias columnas con órdenes de lectura complejos - Tablas con celdas fusionadas, anidadas o irregulares - Elementos visuales mixtos como imágenes, encabezados decorativos o marcas de agua - Escaneos históricos o deteriorados, donde la inferencia del diseño es clave

La cantidad de tokens de razonamiento varía según la complejidad, desde un 20 % hasta cinco veces la longitud del Markdown final, lo que refleja cuánto “piensa” el modelo antes de “escribir”.

Entrenamiento y arquitectura

NuMarkdown-8B-Thinking es una versión afinada de Qwen 2.5-VL-7B de Alibaba, uno de los modelos multimodales de código abierto más potentes.

Su entrenamiento tuvo dos etapas principales:

1. Afinamiento supervisado con muestras sintéticas de documentos, donde cada ejemplo incluía el documento original, los pasos intermedios de razonamiento (análisis de diseño, inferencia de estructura) y la representación final en Markdown.

2. Aprendizaje por refuerzo usando GRPO, con una recompensa centrada en mantener la precisión en la reconstrucción del formato y las relaciones espaciales del documento.

Este proceso de dos fases le permite mantener una alta precisión incluso con diseños complejos que normalmente requieren juicio humano.

Resultados en evaluación

En pruebas independientes y con usuarios, NuMarkdown-8B-Thinking ha demostrado un razonamiento de punta en tareas de OCR a Markdown, superando a modelos generalistas como GPT-4o y a modelos especializados en OCR como OCRFlux. También compite con grandes modelos cerrados de razonamiento como Gemini 2.5, quedando apenas detrás de modelos élite como Gemini Flash Reasoning en clasificaciones multi-modelo ciegas.

Los usuarios destacan especialmente su capacidad para:

- Inferir correctamente el orden de lectura en diseños no lineales - Preservar formatos complejos de tablas - Generar Markdown limpio y fácil de procesar para su uso en sistemas RAG, sin necesidad de ajustes posteriores

Un ejemplo práctico

Imagina una página escaneada de un informe anual con:

- Títulos en varios niveles - Columnas múltiples y barras laterales - Una tabla financiera con celdas fusionadas y filas con espacios irregulares - Un pie de página con disclaimers legales

NuMarkdown-8B-Thinking primero crea tokens de razonamiento que describen la estructura (“Columna 1: párrafo introductorio... Columna 2: continuación del texto... Texto del pie en la parte inferior... Tabla que abarca dos columnas...”) y luego genera un Markdown que refleja con precisión tanto el contenido como el diseño.

Este nivel de transparencia hace que las decisiones del modelo sean auditables, una gran ventaja en entornos empresariales, legales o de archivo.

Opciones de uso

Ya seas investigador, desarrollador o ingeniero de IA en una empresa, NuMarkdown-8B-Thinking está listo para integrarse en tu flujo de trabajo:

- Disponible en Hugging Face para pruebas e integración directa - Pesos del modelo y versiones cuantizadas en formato GGUF para despliegues flexibles en CPU o GPU - Compatible con APIs estilo OpenAI y Hugging Face Transformers para una integración rápida en pipelines

Su licencia MIT garantiza total libertad para proyectos comerciales, académicos o personales, sin dependencias de proveedores ni costos por API.

¿Por qué es importante?

En sectores que dependen de una digitalización precisa de documentos, como finanzas, legal, salud o archivos gubernamentales, la fidelidad al diseño es tan crucial como la precisión del texto. Mientras que la mayoría de los sistemas OCR dejan el diseño como un detalle secundario, NuMarkdown-8B-Thinking lo aborda como un problema de razonamiento.

Al unir código abierto, razonamiento de diseño y salida Markdown optimizada para RAG, ofrece una alternativa transparente, verificable y de alto rendimiento frente a las soluciones propietarias de IA para documentos.

↗

fuente original

https://www.marktechpost.com/2025/08/11/numind-ai-releases-numarkdown-8b-thinking-a-reasoning-breakthrough-in-ocr-and-document-to-markdown-conversion/

ver →

etiquetas:procesamiento de documentos modelos de visión y lenguaje ocr estructuración de documentos inteligencia artificial digitalización código abierto