Mistral AI lanza Devstral 2507, modelos optimizados para razonamiento y síntesis de código

Mistral AI, junto con All Hands AI, ha lanzado nuevas versiones de sus modelos de lenguaje grande enfocados en desarrolladores bajo la etiqueta Devstral 2507. Esta actualización incluye dos modelos: Devstral Small 1.1 y Devstral Medium 2507, ambos diseñados para mejorar el razonamiento basado en agentes, la síntesis de programas y la ejecución estructurada de tareas en grandes repositorios de código. Estos modelos están optimizados para ofrecer un buen balance entre rendimiento y costo, pensados para ser usados en herramientas reales de desarrollo y automatización de código. Devstral Small 1.1, también conocido como devstral-small-2507, está basado en el modelo base Mistral-Small-3.1 y cuenta con aproximadamente 24 mil millones de parámetros. Soporta un contexto de hasta 128,000 tokens, lo que facilita trabajar con códigos que abarcan múltiples archivos y prompts largos, comunes en flujos de trabajo de ingeniería de software. Este modelo ha sido ajustado para generar salidas estructuradas, como XML o llamados a funciones, que permiten su integración con frameworks de agentes como OpenHands. Es ideal para tareas que incluyen navegación en programas, ediciones en varios pasos y búsquedas de código. Además, se distribuye bajo licencia Apache 2.0, siendo apto tanto para investigación como para uso comercial. En cuanto a su rendimiento, Devstral Small 1.1 logró un 53,6% en el benchmark SWE-Bench Verified, que mide la capacidad para generar parches correctos en problemas reales de GitHub. Esto representa una mejora significativa respecto a la versión anterior y lo posiciona por delante de otros modelos abiertos de tamaño similar. Aunque no alcanza el desempeño de los modelos propietarios más grandes, ofrece un equilibrio práctico entre tamaño, costo de inferencia y capacidad de razonamiento para muchas tareas de programación. Este modelo está disponible en distintos formatos, incluyendo versiones cuantizadas en GGUF, compatibles con herramientas como llama.cpp, vLLM y LM Studio. Esto permite ejecutar inferencias localmente en GPUs potentes (como la RTX 4090) o en equipos Apple Silicon con al menos 32 GB de RAM, una ventaja para desarrolladores o equipos que prefieren no depender de APIs externas. También puede usarse vía API de Mistral, con tarifas de $0.10 por millón de tokens de entrada y $0.30 por millón de tokens de salida, igual que otros modelos de la línea Mistral-Small. Por otro lado, Devstral Medium 2507 no es de código abierto y solo se puede acceder a él mediante la API de Mistral o acuerdos empresariales. Aunque comparte la misma capacidad de contexto de 128,000 tokens, ofrece un rendimiento superior. En el benchmark SWE-Bench Verified alcanzó un 61.6%, superando a varios modelos comerciales, incluidos Gemini 2.5 Pro y GPT-4.1, en la misma prueba. Gracias a su mejor capacidad de razonamiento en contextos amplios, está pensado para agentes de código que trabajan con grandes monorepositorios o repositorios con dependencias entre archivos. El costo de su uso por API es de $0.40 por millón de tokens de entrada y $2.00 por millón de tokens de salida. Además, para clientes empresariales se ofrece la posibilidad de ajuste fino a través de la plataforma Mistral. En resumen, Devstral Small es más adecuado para desarrollos locales, experimentación o integración en herramientas de desarrollo del lado del cliente donde el control y la eficiencia son primordiales. Mientras tanto, Devstral Medium brinda mayor precisión y consistencia en tareas de edición estructurada de código, recomendado para servicios en producción que requieren alto desempeño a pesar del mayor costo. Ambos modelos están diseñados para integrarse con frameworks de agentes de código como OpenHands. Gracias al soporte para salidas estructuradas, se pueden incorporar en flujos automáticos para generación de pruebas, refactorización y corrección de errores, lo que facilita su conexión con plugins de IDE, bots de control de versiones y pipelines internos de CI/CD. Esta actualización Devstral 2507 muestra un avance orientado a mejorar la pila de modelos de lenguaje para código de Mistral, ofreciendo opciones claras que balancean costo de inferencia y precisión en tareas. La disponibilidad de ambos modelos bajo diferentes modalidades los hace útiles en diversas etapas del desarrollo de software, desde pruebas experimentales hasta despliegues comerciales.