La serie Falcon-H1, desarrollada por el Technology Innovation Institute (TII), representa un avance importante en la evolución de los grandes modelos de lenguaje (LLMs). Combina la atención basada en Transformers con modelos de espacio de estado (SSM) basados en Mamba en una configuración híbrida paralela, logrando un rendimiento destacado, eficiencia en memoria y buena escalabilidad. Está disponible en varios tamaños, desde 0.5 mil millones hasta 34 mil millones de parámetros, y en diferentes versiones, como base, ajustada para instrucciones y cuantificada. Estos modelos redefinen el equilibrio entre presupuesto computacional y calidad de resultados, mostrando una eficiencia en parámetros superior a muchos modelos actuales como Qwen2.5-72B y LLaMA3.3-70B.
Una innovación clave de Falcon-H1 es su arquitectura híbrida paralela, donde los módulos de atención y SSM operan simultáneamente y sus salidas se concatenan antes de pasar a la proyección final. Esto rompe con la integración secuencial tradicional y permite ajustar de forma independiente la cantidad de canales para atención y SSM. En su configuración estándar, se usa una proporción 2:1:5 para canales SSM, atención y MLP, optimizando tanto la eficiencia como el aprendizaje.
Para optimizar aún más el modelo, se exploraron varios aspectos: - Asignación de canales: Aumentar los canales de atención reduce el rendimiento, mientras que un balance entre SSM y MLP brinda mejoras significativas. - Configuración de bloques: La configuración semi-paralela (SA_M), con atención y SSM corriendo juntos seguidos por el MLP, mostró los mejores resultados en pérdida de entrenamiento y eficiencia computacional. - Frecuencia base RoPE: Un valor sorprendentemente alto, 10¹¹ en Rotary Positional Embeddings, resultó ideal para mejorar la generalización en entrenamientos con contextos largos. - Compensación ancho-profundidad: Modelos más profundos superan a los más anchos con el mismo número de parámetros; por ejemplo, Falcon-H1-1.5B-Deep (66 capas) supera a varios modelos de 3B y 7B parámetros.
En cuanto al tokenizador, Falcon-H1 utiliza un conjunto personalizado de Byte Pair Encoding (BPE) con vocabularios que van desde 32,000 hasta 261,000 tokens. Algunas elecciones importantes son: - Separación específica de dígitos y signos de puntuación para mejorar el desempeño en código y escenarios multilingües. - Inclusión de tokens LaTeX para mejorar la precisión en tareas matemáticas. - Soporte multilingüe que abarca 18 idiomas y que puede escalar a más de 100, utilizando métricas optimizadas para la tasa de fertilidad y tamaño de los tokens.
Para el entrenamiento, utilizaron un corpus cuidadosamente seleccionado con hasta 18 billones de tokens provenientes de más de 20 billones disponibles, compuesto por: - Datos web de alta calidad filtrados (FineWeb). - Conjuntos multilingües como Common Crawl, Wikipedia, arXiv, OpenSubtitles y recursos específicos para 17 idiomas. - Colección de código en 67 lenguajes, procesada con técnicas de deduplicación MinHash, filtros de calidad CodeBERT y eliminación de información personal. - Conjuntos matemáticos como MATH, GSM8K y datos enriquecidos con LaTeX creados internamente. - Datos sintéticos reescritos a partir de corpora originales usando distintos LLM, además de preguntas estilo libro de texto basadas en más de 30,000 temas de Wikipedia. - Secuencias de contexto largo mejoradas mediante técnicas como Fill-in-the-Middle, reordenación y tareas sintéticas de razonamiento de hasta 256,000 tokens.
La infraestructura de entrenamiento utilizó parametrización personalizada de actualización máxima (µP), lo que permitió escalabilidad suave entre diferentes tamaños. Además, implementaron estrategias avanzadas de paralelismo, como Mixer Parallelism (MP) y Context Parallelism (CP), para mejorar el rendimiento en tareas con contextos largos. También lanzaron versiones cuantificadas en bfloat16 y 4 bits, facilitando su uso en dispositivos con recursos limitados.
En cuanto a su desempeño, Falcon-H1 ofrece resultados sin precedentes por parámetro: - La versión Falcon-H1-34B-Instruct supera o iguala a modelos de escala 70B como Qwen2.5-72B y LLaMA3.3-70B en tareas de razonamiento, matemáticas, seguimiento de instrucciones y multilingüismo. - Falcon-H1-1.5B-Deep compite con modelos de 7B a 10B parámetros. - Falcon-H1-0.5B alcanza el rendimiento esperado para modelos de 7B en 2024.
Los benchmarks incluyen pruebas como MMLU, GSM8K, HumanEval y tareas con contextos largos, mostrando además una alineación efectiva gracias a técnicas como SFT y Direct Preference Optimization (DPO).
En resumen, Falcon-H1 establece un nuevo estándar para modelos de lenguaje de código abierto, combinando arquitecturas híbridas paralelas, tokenización flexible, dinámicas de entrenamiento eficientes y capacidades multilingües robustas. Su particular fusión entre SSM y atención ofrece un equilibrio único entre rendimiento, cómputo y uso de memoria, ideal tanto para investigación como para despliegues en entornos variados.



