Google DeepMind y Google Research han dado un paso importante para impulsar el desarrollo abierto de inteligencia artificial en el ámbito médico con el lanzamiento de dos nuevos modelos bajo la familia MedGemma: MedGemma 27B Multimodal, un modelo de base grande que combina visión y lenguaje, y MedSigLIP, un encoder ligero que vincula imágenes médicas con texto. Estos son los modelos abiertos más avanzados que se han presentado hasta ahora en el marco Health AI Developer Foundations (HAI-DEF).

MedGemma se basa en la arquitectura Gemma 3, un transformer que ahora se adapta al sector salud mediante el procesamiento multimodal y un ajuste específico para esta área. Su objetivo es enfrentar retos clave en la inteligencia artificial clínica, como la diversidad de datos, la escasa supervisión especializada y la necesidad de diseños eficientes para su uso real. Estos modelos trabajan con imágenes médicas y textos clínicos, lo que los hace ideales para tareas como diagnósticos, generación de informes, búsquedas o razonamientos complejos.

El MedGemma 27B Multimodal representa una evolución respecto a su versión solo textual, al integrar una arquitectura mejorada que combina visión y lenguaje para abordar razonamientos médicos complejos. Es capaz de entender registros electrónicos de salud a lo largo del tiempo y de tomar decisiones guiadas por imágenes médicas. Cuenta con un transformer de 27 mil millones de parámetros y un encoder de imágenes de alta resolución (896×896), basado en SigLIP-400M, entrenado con más de 33 millones de pares de imágenes y textos médicos provenientes de diversas especialidades como radiología, histopatología, oftalmología y dermatología.

En cuanto a rendimiento, alcanza un 87.7% de precisión en la tarea MedQA (versión solo texto), superando a todos los modelos abiertos con menos de 50 mil millones de parámetros. También demuestra solidez en entornos de agentes clínicos simulados, donde realiza razonamientos en varios pasos para diagnósticos complejos, integrando historial del paciente, imágenes clínicas y datos genómicos, lo cual es clave para tratamientos personalizados.

Entre sus aplicaciones clínicas destacan: respuestas a preguntas multimodales, generación de informes radiológicos, búsquedas cruzadas entre texto e imagen y agentes clínicos simulados.

Por otro lado, MedSigLIP es un encoder ligero derivado de SigLIP-400M, optimizado para el sector salud. Aunque más pequeño, con 400 millones de parámetros y resolución reducida (448×448), es fundamental para potenciar las capacidades visuales de MedGemma 4B y 27B Multimodal, y permite su implementación en dispositivos con recursos limitados, como teléfonos móviles.

Este modelo destaca por su capacidad de rendimiento sin necesidad de ajustes específicos (‘zero-shot’ y ‘linear probe’), superando a otros modelos especializados en dermatología, oftalmología, histopatología y radiología. Por ejemplo, mejora en un 2% el modelo base para radiografías de tórax; logra un 0.881 AUC en diagnósticos dermatológicos con un sondeo lineal; 0.857 AUC en retinopatía diabética y alcanza o supera el estado del arte en clasificación de subtipos de cáncer.

Para las tareas de clasificación y búsqueda sin entrenamiento previo, utiliza la similitud promedio entre incrustaciones de imagen y texto. Además, permite un ajuste eficiente con pocos datos etiquetados gracias a regresión logística.

Ambos modelos son completamente de código abierto, con pesos, scripts de entrenamiento y tutoriales disponibles en su repositorio oficial. Son compatibles con la infraestructura Gemma y pueden integrarse fácilmente en pipelines o agentes basados en modelos de lenguaje con pocas líneas de código Python. También soportan técnicas como cuantización y destilación para su despliegue en hardware móvil sin perder calidad.

Lo más destacado es que se pueden ejecutar en una sola GPU, y los modelos más grandes como el de 27 mil millones de parámetros son accesibles para laboratorios académicos o instituciones con presupuestos moderados de cómputo.

En resumen, la llegada de MedGemma 27B Multimodal y MedSigLIP representa un avance significativo en la estrategia de código abierto para la inteligencia artificial en salud. Demuestran que, con la adaptación adecuada y arquitecturas eficientes, es posible contar con IA médica de alto rendimiento sin depender de soluciones propietarias o muy costosas. Estos modelos facilitan además la creación de aplicaciones clínicas de calidad, desde sistemas de triage y agentes diagnósticos hasta herramientas avanzadas de búsqueda multimodal.

↗

fuente original

https://www.marktechpost.com/2025/07/10/google-ai-open-sourced-medgemma-27b-and-medsiglip-for-scalable-multimodal-medical-reasoning/

ver →

etiquetas:inteligencia artificial médica modelos multimodales salud digital visión por computadora procesamiento de lenguaje natural modelos open source diagnóstico médico