AI Singapore (AISG) acaba de presentar SEA-LION v4, un modelo multimodal de lenguaje open source desarrollado en colaboración con Google y basado en la arquitectura Gemma 3 (27 mil millones de parámetros). Este modelo está especialmente diseñado para apoyar los idiomas del sudeste asiático, incluyendo aquellos con pocos recursos digitales, y ofrece capacidades tanto para entender texto como imágenes. Además, SEA-LION v4 cuenta con una licencia comercial permisiva y puede desplegarse fácilmente en hardware estándar.

En pruebas realizadas con SEA-HELM, un benchmark multilingüe riguroso centrado en idiomas del sudeste asiático, SEA-LION v4 ha demostrado un rendimiento destacado. En lenguas como birmano, filipino, indonesio, malayo, tamil, tailandés y vietnamita, el modelo se posiciona como el mejor entre los que tienen menos de 200 mil millones de parámetros y ocupa el quinto lugar a nivel mundial entre 55 modelos evaluados. Esto es notable, ya que no solo supera a otros modelos open source como Llama 3, Qwen 3 o Gemma 3, sino que también compite de tú a tú con gigantes propietarios mucho más grandes.

Por ejemplo, en filipino obtiene 74.53 puntos frente a 74.09 de Gemma 3 (27B), en malayo logra 71.31 frente a 71.20, y en tamil 68.47 frente a 68.45. En birmano alcanza 57.18, ligeramente por debajo de Gemma 3, pero superando a modelos como Llama 4 MoE (109B). En muchos casos, SEA-LION v4 iguala o supera rendimientos de modelos 3 a 10 veces mayores, lo que lo convierte en una opción eficiente y potente para investigación e industria.

Las novedades de SEA-LION v4 incluyen:

1. Código abierto: Bajo la licencia comercial permisiva de Gemma, facilitando su adopción por startups, investigadores y empresas. Está disponible en plataformas como Hugging Face, Google Cloud Vertex AI, AWS SageMaker, Kaggle, NVIDIA NIM y Ollama, lo que permite integrarlo tanto en la nube como en dispositivos locales.

2. Eficiencia y portabilidad: Aunque cuenta con 27 mil millones de parámetros, se ha optimizado para funcionar en casi cualquier lugar. Sus versiones cuantificadas en FP4 y FP8 ofrecen menos del 0.5% de pérdida de precisión y hasta un 50% más de velocidad en inferencia, pudiendo usarse incluso en laptops con 32 GB de RAM.

3. Multimodalidad (texto + visión): SEA-LION v4 es el primer modelo multimodal del proyecto, capaz de interpretar imágenes y combinarlas con texto para responder de manera contextualizada. Esto es útil en análisis de documentos multilingües con imágenes, preguntas basadas en imágenes en idiomas locales o flujos de trabajo interactivos que mezclan texto e imágenes. Además, soporta contextos extensos de hasta 128,000 tokens, ideal para documentos largos o conversaciones prolongadas.

4. Interacciones estructuradas y agenticas: Incorpora herramientas para llamadas a funciones (API externas), generación de salidas estructuradas en JSON y compatibilidad con flujos de trabajo agenticos, lo que amplía su uso a la automatización, asistentes de investigación o bots empresariales multimodales.

Una característica clave de SEA-LION v4 es su entrenamiento con más de un billón de tokens, con un fuerte enfoque en datos cuidadosamente seleccionados del sudeste asiático. Esto le da ventaja en la comprensión de lenguas regionales y dialectos poco representados, donde otros grandes modelos suelen fallar. En las pruebas de SEA-HELM, el modelo destaca especialmente en filipino, malayo, tamil y birmano, apoyando la equidad digital en una región con más de 600 millones de personas que dependen de una rica diversidad lingüística. Al mismo tiempo, gracias a la sólida capacidad de razonamiento general heredada de Gemma, es muy competitivo en inglés y otras tareas globales, convirtiéndolo en una herramienta versátil para implementaciones universales.

En resumen, SEA-LION v4 demuestra que con un modelo de tamaño moderado, pero bien optimizado y entrenado en datos específicos de dominio, se pueden lograr resultados punteros en tareas multilingües. Sus capacidades multimodales, licencia abierta y facilidad de despliegue lo convierten en un avance importante para la inteligencia artificial regional.

El modelo ya está disponible para su prueba y descarga en Hugging Face y en el SEA-LION Playground. Además, cuentan con recursos como tutoriales, códigos y notebooks que facilitan su uso y experimentación.

↗

fuente original

https://www.marktechpost.com/2025/08/25/sea-lion-v4-multimodal-language-modeling-for-southeast-asia/

ver →

etiquetas:inteligencia artificial modelos multimodales lenguas del sudeste asiático open source ia en la región procesamiento de imágenes y texto innovación tecnológica