La inteligencia artificial tiene un gran potencial para hacer que el razonamiento médico experto sea más accesible, pero las evaluaciones actuales suelen quedarse cortas al basarse en escenarios estáticos y simplificados. En la práctica clínica real, el proceso es mucho más dinámico: los médicos ajustan su diagnóstico paso a paso, formulando preguntas específicas e interpretando nueva información conforme la reciben. Este método iterativo les permite afinar hipótesis, valorar costos y beneficios de pruebas diagnósticas, y evitar conclusiones apresuradas. Aunque los modelos de lenguaje han demostrado un buen desempeño en exámenes estructurados, estas pruebas no reflejan la complejidad del mundo real, donde las decisiones prematuras y el uso excesivo de pruebas siguen siendo un problema que las evaluaciones estáticas no detectan.
Desde hace décadas, se ha explorado la resolución de problemas médicos mediante IA. Los primeros sistemas utilizaban marcos bayesianos para guiar diagnósticos secuenciales en áreas como patología y atención al trauma, pero requerían una gran carga de conocimiento experto. Más recientemente, los estudios se enfocan en utilizar modelos de lenguaje para el razonamiento clínico, generalmente evaluados con pruebas estáticas de opción múltiple, las cuales ya están bastante saturadas. Algunos proyectos, como AMIE y NEJM-CPC, presentaron casos más complejos, aunque seguían basados en viñetas fijas. Mientras que otros intentos miden la calidad conversacional o la recopilación básica de información, pocos logran capturar la completa complejidad del diagnóstico en tiempo real, que requiere considerar costos y decisiones graduales.
Con el fin de reflejar mejor el razonamiento clínico real, investigadores de Microsoft AI desarrollaron SDBench, un nuevo benchmark basado en 304 casos diagnósticos reales extraídos del New England Journal of Medicine. En este entorno, los médicos o sistemas de IA deben interactuar haciendo preguntas y solicitando pruebas antes de llegar a un diagnóstico final. Un modelo de lenguaje actúa como “portero”, mostrando solo la información que se pide específicamente. Para mejorar el desempeño, crearon MAI-DxO, un sistema orquestador desarrollado junto a médicos, que simula un panel médico virtual capaz de elegir pruebas de alto valor y costo-efectivas. Combinado con modelos como o3 de OpenAI, logró una precisión de hasta 85.5% reduciendo significativamente los costos de diagnóstico.
El benchmark Sequential Diagnosis Benchmark (SDBench) se construyó a partir de 304 casos del NEJM publicados entre 2017 y 2025, y abarca una amplia variedad de patologías. Cada caso se transformó en una simulación interactiva donde los agentes diagnósticos podían hacer preguntas, pedir pruebas o dar un diagnóstico final. Un “Portero”, impulsado por un modelo de lenguaje y reglas clínicas, respondía basándose en datos reales del caso o en hallazgos sintéticos pero consistentes. Las diagnósticos se evaluaban con un modelo “Juez” usando una rúbrica creada por médicos, centrada en la relevancia clínica. Los costos se calcularon usando códigos CPT y datos de precios para reflejar limitaciones y decisiones del mundo real.
Al probar diferentes agentes de IA en SDBench, MAI-DxO superó consistentemente tanto a modelos estándar como a médicos. Mientras que los modelos comunes mostraban un equilibrio entre costo y precisión, MAI-DxO, basado en o3, ofreció mayor precisión a menores costos gracias a un razonamiento estructurado y toma de decisiones. Por ejemplo, alcanzó un 81.9% de precisión con un costo promedio de $4,735 por caso, frente al 78.6% y $7,850 de o3 sin modificaciones. Además, demostró robustez en distintas configuraciones y datos no vistos, mostrando gran capacidad de generalización. Este sistema mejoró el rendimiento de modelos más débiles y ayudó a que los más fuertes usaran recursos de manera más eficiente, reduciendo pruebas innecesarias mediante una recolección de información más inteligente.
En resumen, SDBench es un nuevo benchmark que convierte casos reales del NEJM CPC en desafíos interactivos y realistas, donde tanto IA como médicos deben hacer preguntas, ordenar pruebas y diagnosticar, tomando en cuenta el costo de cada acción. A diferencia de pruebas estáticas, emula el proceso de decisión clínica real. Además, MAI-DxO simula diferentes perfiles médicos para alcanzar alta precisión diagnóstica a menor costo. Aunque los resultados iniciales son alentadores, especialmente en casos complejos, todavía hay limitaciones, como la ausencia de condiciones comunes y ciertas restricciones del mundo real. Los próximos pasos incluyen evaluar el sistema en clínicas reales y en entornos con pocos recursos, con potencial impacto en la salud global y la educación médica.



