30-Apr-2026
Un modelo de lenguaje a gran escala demuestra un excelente desempeño en tareas de razonamiento clínico de los médicos
American Association for the Advancement of Science (AAAS)Peer-Reviewed Publication
Según un nuevo estudio que utilizó datos reales de servicios de urgencias, un modelo de lenguaje a gran escala (LLM) de última generación superó a los médicos humanos en tareas habituales de razonamiento clínico, como la toma de decisiones en urgencias, la identificación de posibles diagnósticos y la elección de los siguientes pasos en el tratamiento. Los autores del estudio —uno de los más amplios realizados hasta la fecha para comparar la inteligencia artificial y los médicos en una amplia gama de tareas de razonamiento clínico— dejan claro que sus resultados no significan que los sistemas de IA estén preparados para ejercer la medicina por sí mismos, ni que los médicos puedan ser excluidos del proceso de diagnóstico. No obstante, los resultados plantean cuestiones urgentes sobre la futura evaluación e implementación de las herramientas de inteligencia artificial (IA) en la atención clínica. Durante más de 65 años, los casos clínicos de diagnóstico difícil han sido el punto de referencia para evaluar los sistemas informáticos médicos. Más recientemente, los LLM han superado a los enfoques computacionales anteriores en estos casos complejos. Sin embargo, a pesar de este progreso, la mayoría de los estudios médicos sobre los LLM han examinado escenarios limitados o muy controlados y, a menudo, carecían de una comparación directa con el rendimiento de los médicos humanos en tareas de razonamiento clínico del mundo real. El rápido avance de las herramientas médicas basadas en modelos de lenguaje grande (LLM) exige ahora una evaluación más rigurosa.
En este estudio, Peter Brodeur y sus colegas evaluaron de forma exhaustiva las capacidades de diagnóstico y planificación del tratamiento de un modelo de lenguaje grande avanzado —la serie o1 de OpenAI— comparando su rendimiento con el de cientos de médicos y sistemas de IA anteriores en una amplia gama de tareas de razonamiento clínico. Entre ellas se incluían tanto casos clínicos estandarizados como un estudio en el mundo real con pacientes de urgencias seleccionados al azar en un importante centro médico de urgencias de Massachusetts. Brodeur y su equipo. descubrieron que, en los seis experimentos, el modelo LLM igualó o superó de forma sistemática el rendimiento humano en el razonamiento diagnóstico y de gestión. Cabe destacar que su ventaja fue más evidente en la clasificación inicial de pacientes en el servicio de urgencias, donde los médicos deben tomar decisiones rápidas con información mínima. Aunque tanto los seres humanos como la IA mejoraron a medida que se disponía de más datos clínicos, el modelo demostró una clara fortaleza en condiciones de incertidumbre, utilizando de manera eficaz incluso datos fragmentados y no estructurados de historias clínicas. Según los autores, los modelos de lenguaje grande (LLM) se están acercando rápidamente al razonamiento clínico de nivel humano, y en algunas áreas lo están superando, y aunque la toma de decisiones asistida por IA suele considerarse arriesgada, los resultados sugieren que estas herramientas —cuando se utilizan en colaboración con las evaluaciones de los médicos— podrían reducir los errores de diagnóstico, los retrasos y las desigualdades en el acceso a la atención sanitaria. Sin embargo, los autores también señalan varias limitaciones importantes del estudio. Por ejemplo, su enfoque se limitaba al razonamiento basado en texto, mientras que la práctica clínica depende en gran medida de señales visuales y auditivas, ámbitos en los que la IA actual sigue teniendo menos capacidad. «La precisión en una tarea definida es solo una de las dimensiones de la preparación para su implementación. La IA clínica también debe ofrecer resultados equitativos, rentables y seguros, respaldados por la rendición de cuentas, la transparencia y la supervisión continua», escriben Ashley Hopkins y Erik Cornelisse en un artículo de Perspective relacionado. «Sin una eficacia, equidad y seguridad sólidas y demostradas, muchos sistemas de IA seguirán siendo insuficientes para el uso clínico».
- Journal
- Science