La startup china de inteligencia artificial DeepSeek ha lanzado DeepSeek-V3.1, su modelo de lenguaje más avanzado hasta la fecha. Esta nueva versión mejora significativamente el razonamiento, el uso de herramientas y el rendimiento en codificación, partiendo de la arquitectura de DeepSeek-V3. Los modelos DeepSeek se han destacado por ofrecer un rendimiento comparable al de OpenAI y Anthropic, pero a una fracción del costo.

En cuanto a su diseño, DeepSeek-V3.1 incorpora el “Modo de pensamiento híbrido”, que permite alternar entre generación con razonamiento en cadena (más reflexiva) y generación directa o de flujo de conciencia, cambiando entre ellos mediante la plantilla de chat. Esta novedad aporta mayor flexibilidad para distintos escenarios.

También se ha optimizado el modelo para llamado de herramientas y tareas de agentes, como el uso de APIs, ejecución de código y búsquedas. Los llamados a herramientas siguen un formato estructurado y es posible crear agentes personalizados para código y búsqueda, con plantillas detalladas incluidas en el repositorio.

DeepSeek-V3.1 cuenta con una escala impresionante de 671 mil millones de parámetros en total, activando 37 mil millones por token gracias a un diseño Mixture-of-Experts (MoE) que reduce costos de inferencia sin perder capacidad. Además, su ventana de contexto alcanza los 128 mil tokens, mucho más que la mayoría de sus competidores.

Para el manejo de contextos largos, utiliza un enfoque en dos fases: la primera (32K tokens) entrenada con 630 mil millones de tokens, y la segunda (128K tokens) con 209 mil millones de tokens. Emplea un escalamiento micro FP8 para hacer cálculos eficientes en hardware de nueva generación.

El diseño de la plantilla de chat soporta conversaciones con múltiples turnos y tokens explícitos para instrucciones del sistema, preguntas del usuario y respuestas del asistente. Los modos de pensamiento se activan mediante los tokens <think> y </think>.

En pruebas de rendimiento, DeepSeek-V3.1 destaca en diversas métricas de conocimiento general, codificación, matemáticas, uso de herramientas y tareas de agente. Su modo de pensamiento logra resultados que igualan o superan a modelos punteros, especialmente en programación y matemáticas. En contraste, el modo sin pensamiento es más rápido aunque con una precisión ligeramente menor, ideal para aplicaciones que requieren baja latencia.

Respecto a la integración con herramientas y agentes de código, el modo sin pensamiento soporta llamadas estructuradas a herramientas, facilitando flujos de trabajo automatizados con APIs externas. Los desarrolladores pueden crear agentes de código personalizados siguiendo plantillas que detallan cómo generar, ejecutar y depurar código. Además, DeepSeek-V3.1 puede usar herramientas de búsqueda externas para acceder a información actualizada, una función clave para sectores como negocios, finanzas e investigación técnica.

La compañía ha publicado todo el código y pesos del modelo bajo licencia MIT, disponibles en Hugging Face y ModelScope, fomentando su uso tanto en investigación como en proyectos comerciales. El modelo es compatible con la versión anterior DeepSeek-V3 y cuentan con guías completas para una implementación local, que aunque demanda recursos GPU considerables, se ve facilitada por un ecosistema abierto y herramientas comunitarias.

En resumen, DeepSeek-V3.1 marca un avance importante en la democratización de la inteligencia artificial avanzada, ofreciendo un modelo de lenguaje abierto, económico y altamente capaz, que combina razonamiento escalable, integración con herramientas y un rendimiento sobresaliente en tareas de programación y matemáticas. Esto lo convierte en una opción práctica tanto para investigación como para desarrollo aplicado en IA.

↗

fuente original

https://www.marktechpost.com/2025/08/21/what-is-deepseek-v3-1-and-why-is-everyone-talking-about-it/

ver →

etiquetas:inteligencia artificial modelos de lenguaje deepseek herramientas de ia procesamiento de lenguaje natural codificación aplicaciones de ia