Meta AI acaba de presentar DINOv3, un innovador modelo de visión por computadora que utiliza aprendizaje auto-supervisado y establece nuevos estándares en versatilidad y precisión para tareas de predicción densa, todo ello sin necesidad de datos etiquetados. Este modelo se entrena con una impresionante cantidad de 1.700 millones de imágenes y cuenta con una arquitectura de 7.000 millones de parámetros. Por primera vez, un único sistema visual congelado supera a soluciones especializadas en distintas áreas, como detección de objetos, segmentación semántica y seguimiento en vídeo, sin requerir ajustes adicionales.
Entre sus características principales destacan que DINOv3 no necesita anotaciones humanas, lo que lo hace ideal para ámbitos donde las etiquetas escasean o son costosas, como imágenes satelitales, aplicaciones biomédicas y teledetección. Su arquitectura universal y congelada produce características de alta resolución que pueden ser usadas directamente con adaptadores ligeros para diversos usos posteriores, superando a modelos previos tanto específicos como auto-supervisados.
Meta ofrece distintas versiones para facilitar su implementación, desde el potente ViT-G hasta sus variantes distiladas ViT-B y ViT-L, así como modelos ConvNeXt, abarcando desde investigación a gran escala hasta dispositivos con recursos limitados. Además, el paquete completo de DINOv3 está disponible bajo licencia comercial, incluyendo el código de entrenamiento y evaluación, pesos preentrenados, adaptadores para tareas específicas y cuadernos de ejemplo para impulsar la innovación y la integración en productos.
Este avance ya está teniendo un impacto real: organizaciones como el World Resources Institute y el Laboratorio de Propulsión a Chorro de la NASA lo utilizan para mejorar notablemente la precisión en el monitoreo forestal, logrando reducir el error en la estimación de altura del dosel arbóreo en Kenia de 4.1 a 1.2 metros, y también para equipos de exploración en Marte con bajo consumo computacional.
DINOv3 logra cerrar la brecha entre modelos generales y específicos gracias a su entrenamiento masivo auto-supervisado, evitando depender de subtítulos web o curación manual y permitiendo un aprendizaje universal a partir de datos no etiquetados. Esto abre la puerta a aplicaciones en escenarios donde la falta de anotaciones era una gran limitación.
En comparación con versiones anteriores, DINOv3 aumenta significativamente la escala del entrenamiento (de 142 millones a 1.700 millones de imágenes) y los parámetros (de 1.100 a 7.000 millones), manteniendo la ventaja de no requerir afinación para nuevas tareas y superando el rendimiento de modelos especializados en predicciones densas.
En resumen, DINOv3 representa un salto importante en visión por computadora, con una arquitectura universal congelada y un enfoque de aprendizaje auto-supervisado que facilita el desarrollo rápido y la adaptación a distintas áreas simplemente cambiando adaptadores ligeros. Meta ofrece todo lo necesario para su uso académico e industrial, fomentando una amplia colaboración en la comunidad de inteligencia artificial y visión computacional.
El paquete completo de DINOv3, con modelos y código, ya está disponible para investigación y despliegue comercial, marcando un paso adelante hacia sistemas de visión artificial robustos y escalables.



