No existe una solución única que sea la mejor en todos los casos al comparar los modelos de lenguaje grandes (LLMs, con 30 mil millones de parámetros o más, usualmente accesibles vía APIs) y los modelos de lenguaje pequeños (SLMs, entre 1 y 15 mil millones de parámetros, comúnmente con pesos abiertos o especializados). Para bancos, aseguradoras y gestores de activos en 2025, la elección dependerá de factores como el riesgo regulatorio, la sensibilidad de los datos, la latencia, el costo y la complejidad del caso de uso.
Se recomienda optar primero por SLMs para tareas como la extracción de información estructurada, atención al cliente, asistencia en programación y gestión interna del conocimiento, especialmente si se combinan con técnicas de generación aumentada por recuperación (RAG) y sólidas medidas de control. En cambio, conviene usar LLMs cuando se requiera síntesis avanzada, razonamiento en múltiples pasos o cuando los SLMs no alcancen el nivel de desempeño necesario dentro de los límites de latencia y costo.
En ambos casos, la gobernanza es fundamental: se deben tratar tanto LLMs como SLMs dentro de un marco de gestión del riesgo de modelos (MRM), alineándose con el Marco de Gestión de Riesgos para IA del NIST y asegurando que las aplicaciones de alto riesgo (como el scoring crediticio) cumplan con las obligaciones previstas en la Ley de IA de la UE.
Las instituciones financieras están sujetas a estrictas normas de gobernanza para modelos. En Estados Unidos, por ejemplo, la regulación SR 11-7 del Federal Reserve, OCC y FDIC cubre cualquier modelo usado para decisiones de negocio, incluyendo tanto LLMs como SLMs, y exige validación, monitoreo y documentación sin importar el tamaño del modelo. Asimismo, el marco AI RMF 1.0 del NIST se ha convertido en estándar para controlar riesgos de IA en estos entornos.
Por su parte, en la Unión Europea, la Ley de IA está en vigor con fechas escalonadas de cumplimiento: desde agosto de 2025 para modelos de propósito general y agosto de 2026 para sistemas de alto riesgo, como los usados en scoring crediticio. Estos sistemas deben someterse a conformidad previa al mercado, gestión de riesgos, documentación exhaustiva, registro de actividades y supervisión humana. Las entidades que operan en el mercado europeo deben planificar adecuadamente sus ajustes para respetar estos plazos.
En cuanto a normativas sectoriales, hay reglas clave como la GLBA Safeguards Rule, que exige controles de seguridad y supervisión de proveedores sobre datos financieros de consumidores; y PCI DSS v4.0, vigente desde marzo de 2025, que fortalece las medidas de autenticación, retención y cifrado de datos de tarjetas.
Los supervisores y organismos de estándar alertan sobre riesgos sistémicos asociados a la concentración tecnológica, dependencia de proveedores y riesgo inherente a los modelos, sin importar su tamaño. Es importante recordar que para usos de alto riesgo, como créditos y evaluación de riesgos, se requieren controles estrictos, validación trazable, manejo seguro de la privacidad y cumplimiento regulatorio, ya sea con SLMs o LLMs.
Desde la perspectiva técnica, los SLMs con entre 3 y 15 mil millones de parámetros ya ofrecen alta precisión en tareas específicas de dominio, sobre todo cuando se afinan y se complementan con técnicas de recuperación de información. Modelos recientes como Phi-3, FinBERT o COiN destacan en extracción dirigida, clasificación y apoyo a flujos de trabajo, ofrecen latencias menores a 50 ms y permiten hospedaje local, lo que facilita cumplir con reglas de residencia de datos y despliegues en la periferia.
Por su parte, los LLMs permiten operaciones más amplias, como síntesis entre múltiples documentos, razonamientos complejos y manejo de contextos extensos que superan los 100 mil tokens. Modelos especializados en finanzas, como BloombergGPT (50 mil millones de parámetros), superan a los modelos generales en benchmarks financieros y tareas que requieren varios pasos de análisis.
El costo computacional es un factor crítico: la atención en transformadores crece de forma cuadrática con la longitud de la secuencia. Existen optimizaciones como FlashAttention o SlimAttention que reducen gastos, pero no eliminan esa relación, por lo que un LLM de contexto largo puede ser mucho más caro en inferencia que un SLM con contextos breves.
En resumen, para tareas cortas, estructuradas y sensibles a la latencia, como centros de contacto, procesamiento de reclamos, extracción KYC o búsquedas de conocimiento, los SLMs son la opción más adecuada. Si se necesitan contextos muy largos o síntesis profunda, habrá que presupuestar para LLMs y reducir costos con cachés y escalamiento selectivo.
En materia de seguridad y cumplimiento, ambos tipos de modelos comparten riesgos comunes como la inyección de instrucciones maliciosas, manejo inseguro de resultados, filtración de datos y vulnerabilidades en la cadena de suministro. Los SLMs se prefieren para hospedaje interno, facilitando el cumplimiento de normativas como GLBA, PCI y las restricciones de soberanía de datos, minimizando riesgos legales asociados a transferencias internacionales.
Los LLMs, cuando operan vía API, generan preocupaciones por concentración del proveedor y dependencia, por lo que los reguladores exigen planes documentados de salida, contingencia y uso de múltiples proveedores. En usos de alto riesgo, se requiere explicabilidad transparente, modelos alternativos de prueba, registros completos de decisiones y supervisión humana; las capacidades de trazado de razonamiento de los LLMs no reemplazan la validación formal establecida por normativas como la SR 11-7 o la Ley de IA europea.
En cuanto a patrones de despliegue en finanzas, existen tres estrategias probadas: primero un modelo SLM que atiende la mayoría (>80%) de consultas con soporte RAG, escalando a LLM solo casos complejos o de baja confianza. Esto ofrece costos y latencia predecibles, útil en atención al cliente o análisis de formularios.
Otra forma es usar LLMs como núcleo, combinándolos con herramientas deterministas para acceso a datos, cálculos y protección DLP, ideal para investigaciones o tareas regulatorias complejas.
Por último, hay grandes LLMs especializados en finanzas, que implican mayor carga de gestión de riesgos, pero aportan mejoras tangibles en tareas específicas. En todos los casos, se deben aplicar filtros de contenido, anonimización, acceso mínimo, verificación de salidas, pruebas de seguridad y monitoreo continuo siguiendo marcos como NIST AI RMF y recomendaciones OWASP.
Para facilitar la elección, una matriz rápida recomienda preferir SLMs cuando el uso es interno, no decisional, con datos sensibles que deben permanecer on-premise, requisitos estrictos de latencia y costos, y tareas de extracción con apoyo de RAG. Por el contrario, LLMs son apropiados para casos de alto riesgo como scoring crediticio, cuando se trabaja con APIs externas protegidas, con menos exigencias inmediatas de latencia pero mayor complejidad en inputs y contexto, y cuando se requiere despliegue rápido en ambientes gestionados.
Ejemplos concretos ayudan a ilustrar esta estrategia:
- JPMorgan Chase desarrolló COiN, un SLM especializado para automatizar la revisión de contratos de préstamos comerciales, reduciendo el tiempo de semanas a horas, con alta precisión y trazabilidad de cumplimiento, liberando así recursos legales para tareas más complejas.
- FinBERT, un modelo transformer entrenado en gran variedad de datos financieros, detecta con precisión el sentimiento en documentos económicos, permitiendo a instituciones anticipar movimientos de mercado y mejorar la gestión de portafolios con insights contextuales mucho más afinados que los modelos genéricos.
Antes de optar por aumentar el tamaño del modelo para mejorar rendimiento, se recomienda aprovechar mejoras en RAG (que suelen ser el verdadero cuello de botella), optimizar entradas y salidas según esquemas definidos y controles contra inyecciones de instrucciones dañinas, aplicar técnicas para reducir costos en tiempo de servicio como cuantización, cachés y procesamiento en lotes, y usar escalamiento selectivo basado en la confianza de las respuestas para ahorrar hasta 70%.
Además, afinaciones ligeras o ajustes LoRA sobre SLMs pueden cerrar la mayoría de brechas de desempeño, dejando los modelos grandes solo para casos donde haya beneficios claros y medibles.
En definitiva, la selección entre LLM y SLM para instituciones financieras en 2025 debe ser un equilibrio inteligente que considere regulaciones, riesgos, costos y requisitos técnicos para maximizar valor sin comprometer seguridad ni cumplimiento.



