La paradoja generalista-especialista de la IA médica
Traducción de The Generalist–Specialist Paradox of Medical AI por V. L. Murthy, M.D., Ph.D., publicado en NEJM-AI Editorial: https://nejm.ai/4nm6054.
Resumen: Los rápidos avances en las herramientas médicas de IA han permitido que las herramientas de software funcionen de manera similar o mejor que muchos expertos en tareas tradicionalmente realizadas por especialistas médicos, como la interpretación de electroencefalogramas por parte de neurólogos. Por el contrario, las herramientas de IA médica han mostrado un progreso más lento para lograr la equivalencia práctica con los médicos generalistas fuera de entornos altamente controlados, por ejemplo, cuando se enfrentan a preguntas de examen de junta simuladas y viñetas clínicas. Esta divergencia se reconoce como la paradoja generalista-especialista de la IA médica y tiene causas multifactoriales y, si persiste, tendrá amplias implicaciones para la medicina, la formación y la política.
En este número de NEJM AI, Li y sus colegas describen un avance significativo en la interpretación de los datos del electroencefalograma (EEG) para la identificación de descargas epileptiformes o «picos».1
Los autores describen el desarrollo y la rigurosa validación de SpikeNet2, un modelo de aprendizaje profundo de última generación que no solo puede identificar los picos distintivos de la epilepsia, sino que también puede clasificar trazados EEG completos como positivos o negativos con una precisión equivalente o superior al 68% de los expertos. El estudio tiene muchas fortalezas notables, incluida una gran base de datos de capacitación de dos centros médicos académicos y dos conjuntos de datos independientes utilizados exclusivamente para la evaluación. El estándar de oro fue el consenso de ocho expertos, y el comparador fue un grupo de 24 especialistas, lo que permitió contextualizar el rendimiento de la nueva herramienta de IA en relación con los humanos.
Este estudio amplía el espectro de campos en los que las herramientas de IA han igualado o superado el rendimiento humano para incluir una prueba diagnóstica clave normalmente interpretada por los neurólogos, que se suma a la interpretación de los cardiólogos de los electrocardiogramas 2, 3y ecocardiogramas 4, 5 y a la interpretación de los radiólogos de las radiografías 6, 7, 8y las imágenes de tomografía computarizada.9 Cientos de herramientas de IA ya han recibido la autorización de la Administración de Alimentos y Medicamentos de EE. UU., con un gran número en campos de especialidades médicas. No obstante, aunque se sigue avanzando a un ritmo rápido, muchas de estas herramientas se centran únicamente en determinados aspectos de la interpretación de las pruebas. Es importante destacar que las herramientas más recientes se han centrado en generar interpretaciones integrales de pruebas especializadas.10
Por el contrario, los avances en las herramientas de IA para fines médicos generales están avanzando, pero parece menos probable que alcancen el nivel de expertos de manera inminente.11 Aunque varias herramientas de IA han demostrado un rendimiento excelente, comparable al de los médicos titulados, en los exámenes estandarizados utilizados para evaluar a estos y a médicos en formación, la importancia de esto sigue siendo discutible.12
¿Qué explica esta aparente paradoja de un rendimiento a nivel experto en tareas especializadas, pero solo un rendimiento justo en tareas médicas generales?
En primer lugar, es posible que las tareas de los expertos parezcan inescrutables para los no expertos debido a las empinadas curvas de aprendizaje y a las estructuras de datos inusuales. Las tareas especializadas pueden ser más estructuradas y, por su naturaleza, estar estrictamente definidas. La mayor inversión en tecnología de la información realizada durante décadas para acelerar los flujos de trabajo de los especialistas altamente remunerados puede haber dado lugar a mayores conjuntos de datos estructurados para la formación y la validación. Quizás, lo más importante, mucho de lo que sucede en el encuentro médico general puede no estar capturado en el registro formal. Las expresiones faciales, el tempo y el tenor de las conversaciones, los gestos, la apariencia y otros factores rara vez se registran, aunque esto puede evolucionar con el despliegue cada vez mayor de herramientas de documentación basadas en modelos de lenguaje ambiental. Tener un panel de expertos readjudicando ciegamente una sola visita a la clínica sin duda sería un desafío.
En consecuencia, es posible que estemos entrando en una era de paradoja de la IA médica generalista y especializada, en la que la IA avanza más rápidamente en la realización de tareas para las que los humanos requieren especial En términos más generales, es concebible que, con el tiempo, la mayoría de las tareas cognitivas que suelen realizar los especialistas médicos puedan ser realizadas suficientemente bien por los generalistas, redefiniendo los límites entre las diferentes especialidades médicas y, quizás aún más impactante, volviendo a enfatizar el papel de la atención primaria. Sin duda, es probable que las herramientas de IA generalistas también acaben teniendo un gran impacto en la medicina clínica. Sin embargo, si continúan rezagados con respecto a las herramientas especializadas, las implicaciones para la formación, las inversiones y las políticas pueden ampliarse, motivando la reorganización de las becas de especialidad y la repriorización y la reingeniería de las residencias generalistas.
Referencias
1. Li J, Goldenholz DM, Alkofer M, et al. Expert-level detection of epileptiform discharges on short and long time scales. NEJM AI 2025;2(7). DOI: 10.1056/AIoa2401221.
2. Al-Zaiti SS, Martin-Gill C, Zègre-Hemsey JK, et al. Machine learning for ECG diagnosis and risk stratification of occlusion myocardial infarction. Nat Med 2023;29:1804-1813. DOI: 10.1038/s41591-023-02396-3.
3. Mayourian J, La Cava WG, de Ferranti SD, et al. Expert-level automated diagnosis of the pediatric ECG using a deep neural network. JACC Clin Electrophysiol 2025; 17 de marzo (Epub ahead of print). DOI: 10.1016/j.jacep.2025.02.003.
4. He B, Kwan AC, Cho JH, et al. Blinded, randomized trial of sonographer versus AI cardiac function assessment. Nature 2023;616:520-524. DOI: 10.1038/s41586-023-05947-3.
5. Elias P, Poterucha TJ, Rajaram V, et al. Deep learning electrocardiographic analysis for detection of left-sided valvular heart disease. J Am Coll Cardiol 2022;80:613-626. DOI: 10.1016/j.jacc.2022.05.029.
6. Liu Y, Liu W, Chen H, et al. Artificial intelligence versus radiologist in the accuracy of fracture detection based on computed tomography images: a multi-dimensional, multi-region analysis. Quant Imaging Med Surg 2023;13:6424-6433. DOI: 10.21037/qims-23-428.
7. Wu JT, Wong KCL, Gur Y, et al. Comparison of chest radiograph interpretations by artificial intelligence algorithm vs. radiology residents. JAMA Netw Open 2020; 3:e2022779. DOI: 10.1001/jamanetworkopen.2020.22779.
8. Plesner LL, Müller FC, Nybing JD, et al. Autonomous chest radiograph reporting using AI: estimation of clinical impact. Radiology 2023;307:e222268. DOI: 10.1148/radiol.222268.
9. Rajpurkar P, Acosta JN, Dogra S, et al. a2z-1 for multi-disease detection in abdomen–pelvis CT: external validation and performance analysis across 21 conditions. December 17, 2024 (http://arxiv.org/abs/2412.12629). Preprint.
10. Vukadinovic M, Tang X, Yuan N, et al. EchoPrime: a multi-video view-informed vision-language model for comprehensive echocardiography interpretation. October 13, 2024 (http://arxiv.org/abs/2410.09704). Preprint.
11. Takita H, Kabata D, Walston SL, et al. A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians. NPJ Digit Med 2025; 8:1-13. DOI: 10.1038/s41746-025-01543-z.
12. Raji ID, Daneshjou R, Alsentzer E. It’s time to bench the medical exam benchmark. NEJM AI 2025;2(2). DOI: 10.1056/AIe2401235.
