Investigadores de MetaStone-AI y USTC han desarrollado un nuevo modelo generativo reflexivo llamado MetaStone-S1, que alcanza el rendimiento del modelo OpenAI o3-mini gracias a una innovadora estructura denominada Reflective Generative Form.

Una de las principales novedades de este modelo es la integración unificada del modelo de política (encargado de generar las trayectorias de razonamiento) y el modelo de recompensa a nivel de paso dentro de una misma arquitectura, compartiendo parámetros. Esta estrategia solo requiere una pequeña adición de parámetros (por ejemplo, 53 millones para el verificador dentro de un modelo principal de 32 mil millones), lo que reduce significativamente los costos computacionales en comparación con las soluciones tradicionales que emplean modelos de recompensa independientes.

Además, MetaStone-S1 utiliza un Modelo de Recompensa de Proceso Auto-Supervisado (SPRM), que evita la necesidad de datos etiquetados a nivel de proceso, habitualmente costosos de obtener. Para esto, se basa en una función de pérdida auto-supervisada que evalúa la calidad de los pasos intermedios de razonamiento solo con la información de si la respuesta final es correcta, apoyándose en un mecanismo dinámico que filtra etiquetas ruidosas.

Otra innovación importante es la redefinición de la Escalabilidad en Tiempo de Prueba (TTS). Mientras que los modelos de lenguaje tradicionales mejoran incrementando parámetros durante el entrenamiento, MetaStone-S1 optimiza el rendimiento en la inferencia aumentando la profundidad computacional, sin tener que hacer el modelo más grande. Esta aproximación combina dos técnicas:

- Extensión interna del razonamiento en cadena para resolver problemas de manera secuencial y más profunda, aunque con un costo computacional considerable.

- Generación externa de múltiples caminos de razonamiento en paralelo, seleccionando el mejor mediante modelos de recompensa, lo que generalmente requiere modelos adicionales y etiquetado separado.

MetaStone-S1 fusiona ambas estrategias en una sola arquitectura, logrando una selección eficiente y precisa de las trayectorias con un gasto mínimo de recursos extra.

En cuanto a su desempeño, este modelo está disponible en tres tamaños: 1.5 mil millones, 7 mil millones y 32 mil millones de parámetros. La versión más grande, MetaStone-S1-32B, iguala o supera a los modelos líderes, tanto propietarios como de código abierto, incluido OpenAI o3-mini, en pruebas clave de razonamiento y matemáticas. Cada versión muestra una buena escalabilidad y uso eficiente de los parámetros; por ejemplo, el modelo de 1.5B supera a otros modelos similares en tareas matemáticas, mientras que las versiones de 7B y 32B aprovechan eficazmente tanto mayor capacidad como la estrategia TTS.

El modelo destaca por añadir una sobrecarga mínima en parámetros en comparación con modelos tradicionales de recompensa de proceso (por ejemplo, 26M contra 72B), alcanzando resultados líderes en distintas tareas. Durante el entrenamiento, se observa un momento clave en el que el modelo empieza a diferenciar correctamente entre trayectorias de razonamiento correctas e incorrectas, lo que mejora su discriminación y rendimiento final.

Además, la performance de MetaStone-S1 crece de forma logarítmica según el presupuesto computacional (producto del tamaño del modelo por la cantidad de tokens de razonamiento), estabilizándose cerca del muestreo Best-of-32, una opción que ofrece un equilibrio eficiente para su implementación.

Para adaptarse a diferentes necesidades, el modelo permite tres modos de inferencia basados en TTS: bajo (k=2) para respuestas rápidas, medio (k=8) para mayor precisión con un costo moderado, y alto (k=32) para máxima profundidad en problemas complejos.

En resumen, MetaStone-S1 combina la resolución y la verificación de problemas en una sola estructura reflexiva eficiente, logrando el nivel de desempeño de OpenAI o3-mini con muchos menos recursos. Esto demuestra que innovar en la arquitectura de modelos de lenguaje puede ser tan efectivo como simplemente aumentar su tamaño, abriendo nuevos caminos para mejorar el razonamiento en inteligencia artificial de forma más accesible.

↗

fuente original

https://www.marktechpost.com/2025/07/15/what-makes-metastone-s1-the-leading-reflective-generative-model-for-ai-reasoning/

ver →

etiquetas:modelos generativos inteligencia artificial procesamiento de lenguaje natural metastone-ai reflective generative form tecnología de razonamiento modelos de recompensa