Microsoft ha presentado Phi-4-mini-Flash-Reasoning, la versión más reciente de su familia de modelos Phi-4. Se trata de un modelo de lenguaje abierto y ligero, diseñado especialmente para destacar en tareas de razonamiento con contextos muy largos, manteniendo una alta eficiencia durante la inferencia. Este modelo, que cuenta con 3.8 mil millones de parámetros, es una versión destilada de Phi-4-mini, ajustada finamente para problemas complejos como resolución de matemáticas y preguntas que requieren múltiples pasos de razonamiento. Está construido con la nueva arquitectura SambaY, un diseño híbrido que combina decodificadores, logrando resultados de vanguardia entre modelos compactos y funcionando hasta 10 veces más rápido que su predecesor en tareas de generación de texto prolongado.

En el corazón de Phi-4-mini-Flash-Reasoning está la arquitectura SambaY, que mezcla Modelos de Estado Espacial (SSM) con capas de atención mediante una técnica ligera llamada Gated Memory Unit (GMU). Esta estructura facilita el compartir memoria entre capas de forma eficiente, lo que reduce significativamente la latencia durante la inferencia cuando se manejan contextos muy extensos o generaciones largas.

A diferencia de los modelos basados en Transformers, que demandan mucha memoria para sus cálculos de atención, SambaY utiliza Samba (una arquitectura híbrida SSM) en el decodificador propio y reemplaza cerca de la mitad de las capas de atención cruzada en el decodificador cruzado por GMUs. Estas GMUs actúan como funciones de compuertas ligeras que reutilizan el estado oculto de la última capa SSM, evitando cálculos repetidos. Esto permite que la etapa de precarga (prefill) funcione en tiempo lineal y reduce el volumen de entrada/salida durante la decodificación, acelerando notablemente el proceso.

En cuanto a su entrenamiento, Phi-4-mini-Flash-Reasoning fue preentrenado con 5 billones de tokens provenientes de datos sintéticos y reales filtrados de alta calidad, siguiendo la línea de los demás modelos Phi-4-mini. Luego se sometió a un fine-tuning supervisado en varias etapas y a una optimización directa de preferencias (DPO) usando conjuntos de datos enfocados en tareas de razonamiento. Curiosamente, a diferencia de su versión Phi-4-mini-Reasoning, este modelo no utiliza aprendizaje por refuerzo con retroalimentación humana (RLHF).

Pese a esta diferencia, Phi-4-mini-Flash-Reasoning supera a Phi-4-mini-Reasoning en pruebas complejas de razonamiento. Por ejemplo, en el benchmark Math500 alcanza un 92.45% de precisión pass@1, superando tanto a Phi-4-mini-Reasoning (91.2%) como a otros modelos abiertos como Qwen-1.5B y Bespoke-Stratos-7B. También obtiene excelentes resultados en AIME24/25, con una precisión superior al 52% en AIME24.

Este salto en desempeño se debe a su capacidad para generar cadenas de pensamiento (Chain-of-Thought) largas, gracias al soporte para contextos de hasta 64 mil tokens y la optimización en inferencia bajo el marco de vLLM. Esto permite razonar y generar texto en contextos que abarcan miles de tokens sin cuellos de botella. En pruebas de latencia con indicaciones de 2 mil tokens y generación de 32 mil tokens, Phi-4-mini-Flash-Reasoning alcanza hasta 10 veces más throughput que su predecesor.

Las mejoras en eficiencia no son solo teóricas. Gracias a su arquitectura híbrida, el modelo logra un rendimiento competitivo en benchmarks de contexto largo como Phonebook y RULER. Por ejemplo, con un tamaño de ventana deslizante de atención tan pequeño como 256 tokens, mantiene una alta precisión en recuperación, demostrando que las dependencias entre tokens distantes se capturan bien mediante los SSM y la memoria compartida con GMUs.

Estas innovaciones reducen significativamente el uso de cómputo y memoria. Durante la decodificación, las capas GMU sustituyen operaciones de atención que de otro modo consumirían tiempo proporcional a la longitud de la secuencia, llevando este costo a uno proporcional solo a la dimensión oculta. Esto habilita la inferencia en tiempo real incluso en escenarios de múltiples interacciones o documentos extensos.

Microsoft ha liberado los pesos y la configuración del modelo en Hugging Face, facilitando el acceso total a la comunidad. Phi-4-mini-Flash-Reasoning soporta contextos de hasta 64 mil tokens, es compatible con entornos estándar de Hugging Face y vLLM, y está optimizado para un alto throughput en GPUs A100.

Entre los posibles usos de este modelo destacan: - Razonamiento matemático avanzado, como problemas tipo SAT o AIME - Preguntas que requieren múltiples pasos de deducción - Análisis de documentos legales y científicos - Agentes autónomos con memoria a largo plazo - Sistemas de chat con alta demanda y rápido procesamiento

Su combinación de acceso abierto, capacidad de razonamiento y eficiencia en inferencia lo convierte en una opción muy atractiva para entornos con recursos limitados pero necesidades de tareas complejas.

En resumen, Phi-4-mini-Flash-Reasoning demuestra cómo innovaciones arquitectónicas, especialmente mediante modelos híbridos que utilizan SSM y compuertas eficientes, pueden lograr mejoras significativas en el razonamiento sin aumentar el tamaño ni el costo del modelo. Representa un rumbo prometedor para modelos de lenguaje que trabajan con contextos largos, abriendo la puerta a agentes de razonamiento en tiempo real y alternativas escalables y abiertas frente a los grandes modelos comerciales.

↗

fuente original

https://www.marktechpost.com/2025/07/10/microsoft-releases-phi-4-mini-flash-reasoning-efficient-long-context-reasoning-with-compact-architecture/

ver →

etiquetas:modelos de lenguaje razonamiento arquitectura híbrida contextos largos eficiencia en inferencia inteligencia artificial microsoft