En 2017, el artículo “Attention Is All You Need” de Google revolucionó la generación de lenguaje, presentando los Transformers, que permitieron procesar secuencias largas de forma paralela y escalar modelos a tamaños antes inimaginables. Esta innovación impulsó arquitecturas como GPT y BERT, poniendo la autoatención en el centro de la IA generativa actual.
Sin embargo, este enfoque también trajo desafíos: a medida que los contextos se alargan, el consumo de memoria y energía crece considerablemente, lo que llevó a buscar alternativas más eficientes. En este contexto surge SpikingBrain-1.0, una propuesta que busca romper esos límites.
Un equipo del Instituto de Automatización de la Academia China de Ciencias ha desarrollado SpikingBrain-1.0, una familia de modelos “espigados” diseñados para reducir el uso de datos y cómputo en tareas con contextos muy extensos. Presentan dos versiones: SpikingBrain-7B, con una arquitectura lineal enfocada en la eficiencia, y SpikingBrain-76B, que combina atención lineal con un sistema Mixture of Experts (MoE) para mayor capacidad.
Gran parte del desarrollo y las pruebas se realizaron en clústeres de GPUs MetaX C550, utilizando bibliotecas adaptadas específicamente para esa plataforma. Esto muestra no solo un avance en software, sino también un esfuerzo en hardware propio, algo crucial para la estrategia de China de disminuir su dependencia de NVIDIA, como se vio anteriormente con DeepSeek 3.1.
El diseño de SpikingBrain-1.0 está inspirado en el funcionamiento del cerebro humano. En lugar de tener neuronas siempre activas operando con cálculos constantes, utiliza neuronas “espigadas” que acumulan señales y sólo disparan un pulso o pico cuando superan un umbral. Entre esos pulsos, la neurona permanece inactiva, ahorrando operaciones y, potencialmente, energía. Lo interesante es que no solo importa cuántos picos se generan, sino cuándo ocurren: el momento y el orden transmiten información, tal como sucede en nuestro cerebro.
Para integrarse con el sistema actual, el equipo desarrolló métodos que transforman bloques tradicionales de autoatención en versiones lineales más compatibles con el modelo espigado, y crearon un “tiempo virtual” que simula procesos temporales sin sacrificar rendimiento en GPU. Además, la versión más grande incluye el sistema Mixture of Experts, que activa solo submodelos específicos cuando se requieren, un método parecido al que se emplea en GPT-4o y GPT-5.
Los investigadores señalan que este enfoque podría tener un gran impacto en áreas donde la longitud del contexto es crucial, como el análisis de expedientes legales extensos, historias clínicas completas, secuencias de ADN o grandes bases de datos en física de altas energías. Según su estudio, si la arquitectura mantiene su eficiencia en contextos que llegan a millones de tokens, podría reducir costos y abrir nuevas posibilidades en sectores que hoy dependen de infraestructuras de cómputo extremadamente costosas. No obstante, queda pendiente comprobar su rendimiento en entornos reales fuera del laboratorio.
El equipo ha publicado en GitHub el código del modelo de 7.000 millones de parámetros junto con un informe técnico detallado. También ofrece una interfaz web similar a ChatGPT para probar el modelo, que, según los desarrolladores, se ejecuta completamente en hardware chino. Sin embargo, por ahora el acceso está limitado al idioma chino, lo que dificulta su uso internacionalmente.
Esta propuesta es ambiciosa, pero su verdadero impacto dependerá de que la comunidad logre replicar los resultados y comparar desempeño, latencias y consumo energético en escenarios reales y con criterios homogéneos.


