Ovis2.5, el nuevo modelo multimodal de lenguaje (MLLM) desarrollado por el equipo de IA de Alibaba, está generando gran interés en la comunidad de inteligencia artificial de código abierto gracias a sus variantes de 9 mil millones y 2 mil millones de parámetros. Este modelo destaca por sus avances técnicos que permiten una percepción visual a resolución nativa, un razonamiento multimodal profundo y un reconocimiento óptico de caracteres (OCR) más robusto, superando así limitaciones comunes en el procesamiento de imágenes con alto nivel de detalle y en tareas complejas de razonamiento.
Una de las principales innovaciones de Ovis2.5 es su uso de un transformador visual de resolución nativa (NaViT), que procesa las imágenes en su resolución original y variable. A diferencia de otros modelos que utilizan segmentación en bloques o redimensionan las imágenes, lo que suele provocar pérdida de contexto global y detalles importantes, NaViT mantiene intacta la riqueza visual tanto en gráficos detallados como en imágenes naturales. Esto permite que el modelo maneje con éxito tareas visuales densas, como diagramas científicos, infografías complejas y formularios.
En cuanto al razonamiento, Ovis2.5 incorpora un enfoque de entrenamiento más avanzado que va más allá de las técnicas tradicionales basadas en cadenas de pensamiento (CoT). Incluye ejemplos diseñados para favorecer la autocorrección y la reflexión, y ofrece una modalidad opcional de “pensamiento” durante la inferencia. Los usuarios pueden activar este modo para sacrificar velocidad de respuesta a cambio de una mayor precisión paso a paso y una introspección más profunda del modelo, ideal para resolver preguntas científicas o problemas matemáticos que requieren análisis multimodal complejo.
En términos de desempeño, Ovis2.5-9B alcanza un puntaje promedio de 78.3 en la tabla OpenCompass para modelos multimodales, superando a todos los modelos de código abierto con menos de 40 mil millones de parámetros. La versión ligera de 2B obtiene un 73.9, estableciendo un nuevo estándar para modelos compactos que funcionan eficientemente en dispositivos con recursos limitados. Ambos modelos ofrecen resultados sobresalientes en áreas especializadas como razonamiento STEM (MathVista, MMMU, WeMath), análisis de OCR y gráficos (OCRBench v2, ChartQA Pro), localización visual (RefCOCO, RefCOCOg) y comprensión de videos e imágenes múltiples (BLINK, VideoMME). Usuarios en Reddit y X han destacado especialmente sus avances en el reconocimiento de texto en imágenes complejas y en la interpretación sólida de formularios, así como su flexibilidad para consultas visuales complejas.
Ovis2.5 también optimiza la eficiencia en el entrenamiento completo mediante técnicas de empaquetado de datos multimodales y un avanzado paralelismo híbrido, logrando una aceleración de hasta 3 o 4 veces en el rendimiento general. Su versión más ligera sigue la filosofía de “modelo pequeño, gran rendimiento”, facilitando así una comprensión multimodal de alta calidad en hardware móvil y dispositivos al borde de la red.
En resumen, los modelos Ovis2.5 de Alibaba representan un salto significativo en la inteligencia artificial multimodal de código abierto. Con capacidades para procesar imágenes detalladas sin pérdidas, un modo de razonamiento profundo opcional y un desempeño líder en sectores clave como STEM, OCR, análisis de gráficos y video, acortan la brecha con las soluciones propietarias. Además, su eficaz entrenamiento y la disponibilidad de una versión ligera abren las puertas para que investigadores y aplicaciones con recursos limitados accedan a tecnologías multimodales avanzadas.



