El panorama de la inteligencia artificial generativa está dominado por enormes modelos de lenguaje diseñados principalmente para la capacidad de los grandes centros de datos en la nube. Estos modelos tan potentes dificultan o incluso impiden que usuarios comunes puedan ejecutar IA avanzada de forma privada y eficiente en dispositivos locales como laptops, smartphones o sistemas embebidos. En lugar de intentar comprimir estos modelos gigantes para que funcionen en dispositivos limitados —lo que suele implicar una gran pérdida de rendimiento—, el equipo detrás de SmallThinker se planteó una pregunta fundamental: ¿qué pasaría si un modelo de lenguaje se diseñara desde el principio pensando en las limitaciones locales?

Así nació SmallThinker, una familia de modelos Mixture-of-Experts (MoE) desarrollados por investigadores de la Universidad Shanghai Jiao Tong y Zenergize AI, enfocada en ofrecer un rendimiento alto con limitaciones de memoria y cómputo, ideal para inferencias directamente en dispositivos. Ofrece dos variantes principales: SmallThinker-4B-A0.6B y SmallThinker-21B-A3B, marcando un nuevo estándar en eficiencia y accesibilidad para la IA.

### Diseño basado en restricciones locales

En vez de adaptar modelos de la nube, SmallThinker se basa en principios arquitectónicos que maximizan la eficiencia en memoria y cálculo.

- **Mixture-of-Experts de grano fino:** A diferencia de los LLM convencionales que son monolíticos, SmallThinker emplea múltiples redes especializadas ("expertos") pero que solo activan un pequeño subconjunto para cada token de entrada. - El modelo 4B tiene 4 mil millones de parámetros, de los cuales solo 600 millones se usan por token. - El 21B cuenta con 21 mil millones, activando solo 3 mil millones a la vez. Esta estrategia permite mantener una alta capacidad sin pagar el coste de almacenamiento y cómputo de modelos densos.

- **Sparsidad con ReGLU:** Incluso dentro de los expertos activados, más del 60% de las neuronas permanecen inactivas en cada paso de inferencia, ahorrando mucha memoria y potencia computacional.

- **Atención híbrida NoPE-RoPE:** Para manejar contextos largos eficientemente, el modelo alterna capas sin posición global (NoPE) con capas locales de ventana deslizante (RoPE). Esto soporta contextos de hasta 32 mil tokens en el modelo 4B y 16 mil en el 21B, reduciendo significativamente el tamaño de la caché necesaria.

- **Enrutador previo a la atención y carga inteligente:** Para evitar que el acceso a almacenamiento lento afecte la velocidad, SmallThinker predice qué expertos se necesitarán antes de cada paso, precargando sus parámetros desde el almacenamiento SSD o flash simultáneamente con el cómputo. La caché en RAM mantiene los especialistas más usados, mientras que los menos frecuentes permanecen en almacenamiento rápido. Así, se oculta la latencia de entrada/salida y se maximiza el rendimiento incluso con poca memoria.

### Entrenamiento y datos

Los modelos SmallThinker se entrenaron desde cero, no a partir de distilaciones, siguiendo un currículo que va de conocimientos generales a datos especializados en STEM, matemáticas y programación:

- La versión 4B procesó 2.5 billones de tokens, mientras que la 21B alcanzó 7.2 billones. - Los datos provienen de colecciones open-source cuidadosamente curadas, datasets sintéticos de matemáticas y código, y corpus supervisados de instrucciones. - Se aplicaron filtros de calidad, síntesis de datos al estilo MGA y estrategias de prompts basados en personas para mejorar el rendimiento en dominios formales y de razonamiento.

### Resultados en benchmarks

En tareas académicas, SmallThinker-21B-A3B, pese a activar menos parámetros que sus rivales con modelos similares, supera o iguala su desempeño en áreas como matemáticas, generación de código y evaluaciones de conocimiento general:

- En pruebas como MATH-500, GPQA-Diamond, HumanEval y MMLU mostró puntajes competitivos frente a modelos con mayor número de parámetros en uso. - El modelo 4B-A0.6B también destaca al superar o igualar a otros con un número similar de parámetros activados, especialmente en razonamiento y programación.

### Rendimiento en hardware real

Aquí es donde SmallThinker demuestra su mayor ventaja para dispositivos con memoria limitada:

- El modelo 4B funciona bien con solo 1 GB de RAM, y el 21B con apenas 8 GB, sin caídas significativas en la velocidad. - Gracias a la precarga y caché inteligentes, la inferencia es mucho más rápida y fluida que modelos que simplemente recurren a usar el disco cuando la memoria es insuficiente. - Por ejemplo, el 21B-A3B mantiene más de 20 tokens por segundo en una CPU estándar bajo estas condiciones, mientras que modelos similares como Qwen3-30B-A3B encuentran serios problemas de rendimiento.

### Impacto de la sparsidad y la especialización

- El análisis de activación muestra que entre el 70 y 80% de los expertos se usan de manera esporádica, mientras que un grupo pequeño de “expertos calientes” se activan según dominios o idiomas específicos. Esto permite un cacheo eficiente y predecible. - Dentro de los expertos activados, más del 60% de las neuronas permanecen inactivas, especialmente en las primeras capas que son casi completamente dispersas, lo que explica cómo SmallThinker logra tanto con tan poco cómputo.

### Limitaciones y retos futuros

- El corpus de entrenamiento, aunque enorme, es más pequeño que el de algunos modelos de nube punta, por lo que puede limitarse en ciertos dominios muy raros o poco comunes. - Solo se ha usado afinamiento supervisado, sin aprendizaje reforzado basado en feedback humano, lo que puede dejar áreas de seguridad y utilidad por mejorar. - El entrenamiento se centró principalmente en inglés y chino dentro de STEM, por lo que otros idiomas podrían tener un desempeño menor. - Los autores planean ampliar los datasets e incorporar aprendizajes por refuerzo en futuras versiones.

### Conclusión

SmallThinker representa un giro radical frente al enfoque tradicional de simplemente reducir modelos de nube para ejecutar en el borde. Al diseñar modelos desde la base pensando en las limitaciones locales, ofrece alta capacidad, velocidad y bajo consumo de memoria gracias a innovaciones arquitectónicas y en sistema. Esto abre la puerta para que la IA avanzada sea privada, rápida y accesible en casi cualquier dispositivo, democratizando así esta tecnología para un público mucho más amplio.

Los modelos SmallThinker-4B-A0.6B-Instruct y SmallThinker-21B-A3B-Instruct están disponibles gratuitamente para investigadores y desarrolladores, mostrando lo que es posible cuando el diseño de modelos se guía por las realidades del despliegue y no solo por la capacidad de los centros de datos.

↗

fuente original

https://www.marktechpost.com/2025/08/01/meet-smallthinker-a-family-of-efficient-large-language-models-llms-natively-trained-for-local-deployment/

ver →

etiquetas:inteligencia artificial modelos de lenguaje smallthinker arquitectura moe ejecución en dispositivos locales eficiencia computacional benchmark