Evaluación de modelos de lenguaje en IA médica: Importancia del estándar de referencia

adenda a Hacia una inteligencia artificial de diagnóstico conversacional

comentarios a adicionales a la entrada Hacia una inteligencia artificial de diagnóstico conversacional

Por Julio Bonis Sanz. Médico de familia + MBA + Ingeniero de IA PLN

Ojo, que el problema como siempre, es de fundamentos.

Lo más relevante en este estudio, y en otros, es el diseño del estudio y lo que ese diseño implica.

Es un diseño elaborado por ingenieros informáticos de Google (es decir clase media alta de San Francisco) asesorados por expertos clínicos (me apuesto a que especialistas de hospital de renombre).

El meollo del asunto es la definición del estándar de referencia o gold standard (el que se asume que clasifica de forma válida a los sujetos respecto a la presencia o ausencia de una condición clínica)

Cuando quieres evaluar cómo de buenas son los textos generados por un modelo de lenguaje (listas de diagnósticos, recomendaciones, etc) tienes que decidir cual es el texto «correcto» sobre el cual compararlo. Por ejemplo si le pides al modelo «dame los 10 diagnósticos por orden de más a menos probable» para saber cómo de bueno es, tienes que definir cual es el diagnostico correcto. Así puedes ver en qué posición incluyó el modelo el diagnóstico correcto y compararlo con la posición en la que lo incluyó el médico de familia. Pues bien, los ingenieros de google decidieron que el gold standard (el que juzga cómo de correcto o incorrecto el razonamiento clínico de la IA o del médico de familia) es la opinión de ¡un especialista!

El propio hecho de que evaluen el modelo viendo si elabora un diagnostico correcto (como si toda consulta de AP tuviese que concluir con un diagnóstico específico al final de la misma) revela su marco conceptual. Además los ingenieros decidieron qué especialista era el «adecuado». Uno de los problemas está, claro, en qué especialista elegir como gold standard para una paciente de 65 años que consulta en el centro de salud por «un mareillo que me da por las tardes» (¿cardiólogo? ¿Neurólogo? ¿Psiquiatra? ¿Digestivo?)

Naturalmente si como especialista eres el gold standard ninguna IA te va a poder superar, para eso eres el gold standard. Por eso digo que nada cambia. Lo que vemos en este (y otros estudios) es la asunción de que los especialistas son los que saben lo que hay que hacer, y pueden dar lecciones a los medfams sobre lo mal que lo hacen. Es la asunción del médico de familia como «especialista de segunda», que no aporta valor diferencial alguno en cuanto a abordaje especifico de la presentación clínica «indiferenciada» en etapas iniciales de la historia natural de la enfermedad, manejo de la incertidumbre, integración de los valores personales del paciente en la toma de decisiones (valores que se conocen a través de la relación longitudinal), sino simplemente una solución de «bajo coste» al hecho de no poder tener a un dermatólogo atendiendo todos los granos o a un cardiólogo atendiendo todas las palpitaciones o hipertensiones de la población.

La Atención Primaria está en crisis, porque nuestros políticos, dirigentes y resto de especialistas creen y actúan como si la función de la Atención Primaria fuese atender problemas menores, para que los pacientes no molesten en el hospital.

Julio Bonis y Rafael Bravo en los constipadillos

Podrían haber decidido que el gold standard fuera un panel de médicos de familia con más de 10 años de experiencia (por ejemplo) pero no, decidieron que fuese un endocrinólogo quien juzgara si la IA y el medfam habían hecho bien su trabajo al manejar un caso de paciente con glucemias mal controladas.

El diseño de este (y otros estudios) lo que demuestra es que la IA piensa más como un especialista de hospital que como un médico general (es decir la IA se aproxima más al gold standard que el médico general). Lo que subyace es la idea de que lo deseable sería que los pacientes pudiesen acceder directamente al especialista. Si la IA maneja los problemas cardiológicos mejor que un MedFam (a juicio de un cardiólogo) y los problemas neurológicos mejor que un MedFam (a juicio de un neurólogo) entonces mejor pongamos a la IA a pasar consultas de primaria porque sería como poder darles acceso directo a los distintos especialistas. Ninguno de los ingenieros de Google ni quienes les asesoran o financian comprenden el papel de filtro, el concepto de prevención cuaternaria, etc, etc. Si lo comprendieran usarían gold standards distintos para los distintos niveles asistenciales y estarían elaborando modelos específicos entrenados para elaborar razonamientos clínicos como un médico de atención primaria (no como un especialista de hospital).

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.