Investigadores de Amazon han desarrollado una nueva arquitectura de inteligencia artificial que reduce el tiempo de inferencia en un 30% al activar únicamente las neuronas relevantes para cada tarea, de manera similar a cómo el cerebro utiliza áreas especializadas para funciones específicas. Esta innovadora solución aborda uno de los principales desafíos de los grandes modelos de IA: el alto costo computacional y la latencia que implica activar todas las neuronas para cada solicitud, incluso cuando muchas no son necesarias.
Tradicionalmente, los modelos de lenguaje grandes (LLM) y otros sistemas de IA fundamentales activan toda la red ante cualquier entrada, lo que garantiza versatilidad pero resulta ineficiente, ya que gran parte de la actividad neuronal no contribuye realmente a la tarea en curso. Inspirándose en la eficiencia del cerebro humano, que selecciona solo los circuitos necesarios para cada función cognitiva, la nueva arquitectura de Amazon imita este comportamiento activando únicamente las neuronas más relevantes según el contexto de la entrada.
El núcleo de esta innovación es el llamado “poda dinámica y consciente del contexto”. En lugar de recortar el modelo de forma fija durante el entrenamiento y mantener esos cambios, esta arquitectura realiza la poda en tiempo real, durante la inferencia. Esto permite que el modelo siga siendo grande y versátil, pero se active de forma eficiente y rápida para cada tarea específica.
Antes de procesar una entrada, el sistema evalúa qué neuronas o módulos serán más útiles, considerando factores como el tipo de tarea (por ejemplo, redacción legal, traducción o asistencia en programación), el idioma y otras características del contexto. Para esto funciona un “predicador de puertas”, una componente neuronal ligera entrenada para generar una “máscara” que determina qué neuronas se activan en ese momento. Las decisiones son binarias: cada neurona está completamente activa o completamente desactivada, garantizando un ahorro real en el cómputo.
El mecanismo central es un sistema de puertas que analiza las características de la entrada, y en modelos de voz, información adicional como tokens de idioma y tarea, para decidir qué módulos—como bloques de autoatención, redes feed-forward o convoluciones especializadas—son esenciales en cada paso. Por ejemplo, para reconocimiento de voz, se activan módulos de contexto local para un análisis detallado del sonido, mientras que se omiten aquellos solo útiles para otras tareas. Esta poda es estructurada y modular: en lugar de eliminar pesos individuales, se omiten módulos o capas completas, lo que preserva la integridad del modelo y asegura compatibilidad con GPUs y aceleradores modernos.
El modelo predictor de puertas se entrena usando una función de pérdida que favorece la “esparsidad” o porcentaje objetivo de módulos omitidos, empleando técnicas como el estimador Gumbel-Softmax para mantener la diferenciabilidad en la optimización, pero logrando una selección definitiva y binaria durante la inferencia.
Los resultados muestran que esta poda dinámica puede reducir el tiempo de inferencia hasta en un 34% en tareas multilingües de voz a texto o reconocimiento automático de voz (ASR). Por ejemplo, mientras que los modelos estándar presentan latencias promedio de 9.28 segundos, los modelos podados funcionan en 5.22 segundos dependiendo de la tarea y nivel de esparsidad. Además, reduce las operaciones en coma flotante (FLOPs) en más del 60%, lo que se traduce en un menor costo de hardware y en la nube.
Lo más interesante es que esta eficiencia no compromete la calidad: la poda en el decodificador mantiene las métricas de calidad, como el puntaje BLEU en traducción y la tasa de error de palabra (WER) en ASR, hasta niveles moderados de poda, es decir, no se pierde rendimiento hasta aplicar podas muy agresivas. Además, el análisis de los patrones de poda ofrece interpretabilidad sobre qué partes del modelo son clave para cada contexto, mostrando que módulos de contexto local predominan en ASR, mientras que las redes feed-forward son más importantes para traducción de voz.
Un hallazgo importante es que las mejores estrategias de poda varían según la tarea y el idioma. Por ejemplo, en ASR, los módulos de contexto local son cruciales, mientras que el decodificador puede podarse mucho sin perder precisión. En traducción de voz, tanto el codificador como el decodificador requieren atención equilibrada, ya que las capas feed-forward del decodificador son fundamentales. En escenarios multilingües o multitarea, la selección de módulos se ajusta dinámicamente, aunque con patrones consistentes propios de cada tipo de tarea, mostrando una especialización aprendida por la arquitectura.
En conjunto, este enfoque de poda modular y dinámica abre posibilidades para una IA más escalable y energética, algo crucial a medida que los modelos de lenguaje y multimodales siguen creciendo. También permite que los modelos personalicen sus rutas de cómputo no solo por tarea, sino incluso por usuario, región o dispositivo. Además, esta técnica puede aplicarse en otros dominios como procesamiento de lenguaje natural y visión por computadora, donde se utilizan modelos base.
Al activar solo los módulos relevantes en tiempo real, inspirándose en la eficiencia biológica, esta arquitectura de Amazon señala el camino hacia una IA potente pero práctica para aplicaciones reales a nivel global.



