La inteligencia artificial falla en los diagnósticos médicos sin supervisión humana
Los chatbots de inteligencia artificial, como Gemini, Grok, DeepSeek o Chat GPT, que se utilizan en atención médica suelen acertar cuando disponen de información clínica completa, pero muestras deficiencias importantes cuando tienen que realizar un diagnóstico inicial. Son los resultados de un estudio publicado este lunes en la revista JAMA Network Open, que analiza los 21 modelos de lenguaje grandes (LLM) más avanzados del mercado y avanza que la IA no está preparada para tomar decisiones médicas sin la supervisión constante de un profesional humano.
Los investigadores de la incubadora de innovación MESH de la red de hospitales del Boston Mass General Brigham (Estados Unidos) pidieron a los 21 modelos de IA que actúan como médicos en una serie de escenarios clínicos. La conclusión es que los LLM fallan a menudo a la hora de realizar estudios diagnósticos y proponer diagnósticos diferenciales.
Los sistemas de inteligencia artificial sí realizan un diagnóstico correcto en más del 90% de los casos cuando se les proporciona toda la información pertinente de los pacientes. No así en los pasos iniciales del proceso diagnóstico, impulsados por el razonamiento. “Pese a las continuas mejoras, los modelos de lenguaje grandes estándar no están listos para un despliegue de grado clínico sin supervisión”, concluye Marc Succi, director ejecutivo de la Incubadora MESH en Mass General Brigham y autor correspondiente del trabajo.
“Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y subyacen al 'arte de la medicina' que la IA no puede replicar actualmente”, subraya el investigador, quien añade que, por ahora, la IA solo sirve para “aumentar, no reemplazar, el razonamiento del médico, siempre que todos los datos relevantes estén disponibles, lo cual no siempre es el caso”.
Una metodología para evaluar los LLM
El equipo desarrolló la medida PrIME-LLM para evaluar la competencia del modelo de IA a la hora de proponer diagnósticos potenciales, hacer las pruebas adecuadas, llegar a un diagnóstico final y gestionar el tratamiento. La puntuación de PriME-LLM, además, refleja con exactitud cuando los modelos funcionan bien en un área, pero mal en otra y no ofrece una puntuación promedio que podría ocultar sus debilidades, apuntan los investigadores.
El estudio comparó 21 LLM de propósito general, incluyendo los últimos modelos de ChatGPT, DeepSeek, Claude, Gemini y Grok y su capacidad para trabajar en 29 casos clínicos publicados. Para ello, proporcionaron información a los modelos gradualmente, empezando por aspectos básicos como la edad, el sexo y los síntomas del paciente antes de añadir los hallazgos del examen físico y los resultados de laboratorio.
El desempeño de los LLM en cada etapa fue valorado por evaluadores que eran estudiantes de medicina, y estas evaluaciones se utilizaron para calcular las puntuaciones generales PrIME-LLM de los modelos. Los investigadores descubrieron que los LLM eran buenos produciendo diagnósticos finales precisos pero que todos fallaban al producir un diagnóstico diferencial más del 80% de las veces.
“Observamos que son excelentes para nombrar un diagnóstico final una vez que los datos están completos, pero tienen dificultades en el inicio abierto de un caso, cuando no hay mucha información”, aclara Arya Rao, autora principal, investigadora de MESH y estudiante en la Facultad de Medicina de Harvard.
El estudio, que también sirve como barómetro de la rápida evolución de la IA, constata que los modelos lanzados más recientemente superaron generalmente a los modelos más antiguos, lo que demuestra que mejoran constantemente. En la escala PriME-LLM, las puntuaciones de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5. Además, el estudio confirmó que la precisión de todos los LLM mejoraba sustancialmente cuando se incorporaban datos no textuales.
“El trabajo confirma y amplía hallazgos ya conocidos sobre los modelos de lenguaje en medicina. Estudios anteriores habían demostrado que estos sistemas pueden alcanzar buenos resultados en pruebas tipo USMLE, lo que generó cierto optimismo sobre su potencial clínico. Sin embargo, este artículo matiza esa visión al demostrar que un buen rendimiento en preguntas cerradas no se traduce necesariamente en un razonamiento clínico sólido. De hecho, pone de manifiesto debilidades importantes ya señaladas previamente, como las alucinaciones, la dificultad para manejar la incertidumbre y la tendencia a ofrecer conclusiones sin justificar adecuadamente el proceso”, explica Susana Manso, del grupo de trabajo de Inteligencia Artificial y Salud Digital de la Sociedad Española de Medicina de Familia y Comunitaria (semFYC).
En este sentido, la doctora resalta que el estudio “cuestiona directamente la idea de utilizar estos sistemas como herramientas diagnósticas autónomas” y “refuerza un enfoque más prudente, en el que los modelos de lenguaje se utilicen como apoyo al profesional sanitario, especialmente en tareas estructuradas o con menor grado de incertidumbre”.
0