Etiquetado: Inteligencia artificial

addenda a «Hacia una inteligencia artificial de diagnóstico conversacional»

comentarios a adicionales a la entrada Hacia una inteligencia artificial de diagnóstico conversacional

Por Julio Bonis Sanz. Médico de familia + MBA + Ingeniero de IA PLN

Ojo, que el problema como siempre, es de fundamentos.

Lo más relevante en este estudio, y en otros, es el diseño del estudio y lo que ese diseño implica.

Es un diseño elaborado por ingenieros informáticos de Google (es decir clase media alta de San Francisco) asesorados por expertos clínicos (me apuesto a que especialistas de hospital de renombre).

El meollo del asunto es la definición del estándar de referencia o gold standard (el que se asume que clasifica de forma válida a los sujetos respecto a la presencia o ausencia de una condición clínica)

Cuando quieres evaluar cómo de buenas son los textos generados por un modelo de lenguaje (listas de diagnósticos, recomendaciones, etc) tienes que decidir cual es el texto «correcto» sobre el cual compararlo. Por ejemplo si le pides al modelo «dame los 10 diagnósticos por orden de más a menos probable» para saber cómo de bueno es, tienes que definir cual es el diagnostico correcto. Así puedes ver en qué posición incluyó el modelo el diagnóstico correcto y compararlo con la posición en la que lo incluyó el médico de familia. Pues bien, los ingenieros de google decidieron que el gold standard (el que juzga cómo de correcto o incorrecto el razonamiento clínico de la IA o del médico de familia) es la opinión de ¡un especialista!

El propio hecho de que evaluen el modelo viendo si elabora un diagnostico correcto (como si toda consulta de AP tuviese que concluir con un diagnóstico específico al final de la misma) revela su marco conceptual. Además los ingenieros decidieron qué especialista era el «adecuado». Uno de los problemas está, claro, en qué especialista elegir como gold standard para una paciente de 65 años que consulta en el centro de salud por «un mareillo que me da por las tardes» (¿cardiólogo? ¿Neurólogo? ¿Psiquiatra? ¿Digestivo?)

Naturalmente si como especialista eres el gold standard ninguna IA te va a poder superar, para eso eres el gold standard. Por eso digo que nada cambia. Lo que vemos en este (y otros estudios) es la asunción de que los especialistas son los que saben lo que hay que hacer, y pueden dar lecciones a los medfams sobre lo mal que lo hacen. Es la asunción del médico de familia como «especialista de segunda», que no aporta valor diferencial alguno en cuanto a abordaje especifico de la presentación clínica «indiferenciada» en etapas iniciales de la historia natural de la enfermedad, manejo de la incertidumbre, integración de los valores personales del paciente en la toma de decisiones (valores que se conocen a través de la relación longitudinal), sino simplemente una solución de «bajo coste» al hecho de no poder tener a un dermatólogo atendiendo todos los granos o a un cardiólogo atendiendo todas las palpitaciones o hipertensiones de la población.

La Atención Primaria esta en crisis, porque nuestros políticos, dirigentes y resto de especialistas creen y actúan como si la función de la Atención Primaria fuese atender problemas menores, para que los pacientes no molesten en el hospital.

Julio Bonis y Rafael Bravo en los constipadillos

Podrían haber decidido que el gold standard fuera un panel de médicos de familia con más de 10 años de experiencia (por ejemplo) pero no, decidieron que fuese un endocrinólogo quien juzgara si la IA y el medfam habían hecho bien su trabajo al manejar un caso de paciente con glucemias mal controladas.

El diseño de este (y otros estudios) lo que demuestra es que la IA piensa más como un especialista de hospital que como un médico general (es decir la IA se aproxima mas al gold standard que el médico general). Lo que subyace es la idea de que lo deseable sería que los pacientes pudiesen acceder directamente al especialista. Si la IA maneja los problemas cardiológicos mejor que un MedFam (a juicio de un cardiólogo) y los problemas neurológicos mejor que un MedFam (a juicio de un neurólogo) entonces mejor pongamos a la IA a pasar consultas de primaria porque sería como poder darles acceso directo a los distintos especialistas. Ninguno de los ingenieros de Google ni quienes les asesoran o financian comprenden el papel de filtro, el concepto de prevención cuaternaria, etc, etc. Si lo comprendieran usarían gold standards distintos para los distintos niveles asistenciales y estarían elaborando modelos específicos entrenados para elaborar razonamientos clínicos como un médico de atención primaria (no como un especialista de hospital).

Hacia una inteligencia artificial de diagnóstico conversacional

Por Julio Bonis Sanz. Médico de familia + MBA + Ingeniero de IA PLN

En el repositorio arXiv investigadores de Google han publicado hace tres días un articulo titulado: «Hacia una IA de diagnóstico conversacional» (Towards Conversational Diagnostic AI)

Diseño del estudio: en un estudio aleatorizado, doble ciego cruzado de consultas basadas en texto. Se elaboraron 149 escenarios clínicos que fueron representados por actores entrenados, al estilo de un Examen Clínico Objetivo Estructurado (ECOE). Los actores interaccionaban exclusivamente via chat de texto bien con 20 médicos de atencion primaria (10 canadienses y 10 indios) con amplio rango de experiencia (entre 3 y 30 años) bien con un modelo de lenguaje (estilo chatGPT) denominado AMIE (Articulate Medical Intelligence Explorer).

Se pidió a los médicos y a la IA elaborar un listado de los 10 diagnósticos más probables ordenados de más a menos probables. Además se evaluaron multitud de dimensiones de la entrevista clínica; desde aspectos relacionados con la empatía, presencia del diagnóstico correcto entre el listado de diagnóstico, si el tratamiento recomendado era apropiado, si las pruebas complementarias solicitadas eran apropiadas, si las derivaciones al especialista eran adecuadas, etc.

Esta evaluación se realizó mediante dos tipos de cuestionarios: unos de satisfacción validados, rellenados por los actores (para las dimensiones de empatía) y otros cuestionarios rellenados POR MEDICOS ESPECIALISTAS seleccionando la especialidad según el caso a juicio de los investigadores (ingenieros informáticos de Google) para evaluar la calidad clínica. Se media por tanto esta ultima y , pero también la calidad empática del encuentro.

Resultados: La IA obtuvo mejores resultados en todas las dimensiones (clínicas y empáticas) que los médicos de atención primaria… a juicio de médicos especialistas.

AMIE supera a los médicos de familia en varios ejes de evaluación para el diálogo diagnóstico

Conclusión: La IA puede cambiar ciertas cosas, pero hay otras que no van a cambiar. Ninguno de los investigadores (ingenieros de Silicon Valley) ni ninguno de los médicos y expertos que andan estos días discutiendo las limitaciones del estudio (que las tiene) ha caído en la cuenta de que a lo mejor el criterio de un médico especialista no es lo mejor para valorar lo que ocurre en una consulta de atención primaria. Se considera una obviedad que el juicio clínico del médico especialista es el gold standard que por pura epistemología se asume nunca se podrá superar (como mucho igualar).

Interpretación alternativa: Los resultados del estudio sugieren que la IA se comporta, en cuanto a sus decisiones clínicas, más como un especialista que como un médico de atención primaria. Esto tiene sentido pues los modelos de lenguaje están entrenados con el contenido encontrado en internet (incluido PubMed) y eso es lo que replican al generar textos.

Por tanto no sería descabellado pensar que los primeros susceptibles de ser sustituidos deberían ser los médicos especialistas y no los generalistas. Sin embargo eso tampoco lo veremos.

PD: como dato curioso se pidió a los especialistas indicasen si el «medico de familia/IA» habia producido una «alucinación» (se define como un contenido sin sentido, erróneo o inventado por un modelo de lenguaje).Según se puede ver en el artículo publicado los especialistas (que evaluaban los chats sin saber si eran generados por humanos o una IA) encontraron alucinaciones en un 10% de los casos en la IA… y en un 15% de los médicos de familia. Corolario: Conviene no ir puestos de LSD al centro de salud.

Resumen canónico : En el corazón de la medicina se encuentra el diálogo médico-paciente, en el que una hábil anamnesis allana el camino para un diagnóstico preciso, un tratamiento eficaz y una confianza duradera. Los sistemas de Inteligencia Artificial (IA) capaces de dialogo diagnóstico podrían aumentar la accesibilidad, la coherencia y la calidad de la atención. Sin embargo, aproximarse a la experiencia de los médicos es un gran reto pendiente. Presentamos AMIE (Articulate Medical Intelligence Explorer), un sistema de IA basado en un modelo de lenguaje amplio (LLM) optimizado para el diálogo diagnóstico.

AMIE utiliza un novedoso entorno simulado basado en el juego automático con mecanismos de retroalimentación automatizados para escalar el aprendizaje a través de diversas enfermedades, especialidades y contextos. Diseñamos un marco para evaluar ejes de rendimiento clínicamente significativos, como la elaboración de la historia clínica, la precisión diagnóstica, el razonamiento de gestión, las habilidades de comunicación y la empatía. Comparamos el rendimiento de los AMIE con el de los médicos de atención primaria (MAP) en un estudio aleatorizado, doble ciego cruzado de consultas basadas en texto con actores pacientes validados al estilo de un Examen Clínico Objetivo Estructurado (ECOE). El estudio incluyó 149 escenarios de casos clínicos de profesionales de Canadá, el Reino Unido y la India, 20 MAPs para comparar con AMIE y evaluaciones por parte de médicos especialistas y  los actores que actuaban como pacientes.

AMIE demostró una mayor precisión diagnóstica y un rendimiento superior en 28 de 32 ejes según los médicos especialistas y en 24 de 26 ejes según los pacientes actores. Nuestra investigación tiene varias limitaciones y debe interpretarse con la debida cautela. Los médicos se limitaron a un chat de texto sincrónico poco familiar que permite interacciones a gran escala entre el AMIE y el paciente, pero que no es representativo de la práctica clínica habitual. Aunque es necesario seguir investigando antes de que AMIE pueda trasladarse a entornos reales, los resultados representan un hito hacia la IA de diagnóstico conversacional.

El mundo en dos décadas

Por Antonio Orbe

Es imprescindible reflexionar sobre qué cambios vendrán (y serán muchos) en las próximas dos décadas.

orbeHe escrito UNA MIRADA AL FUTURO. Inteligencia artificial, abundancia, empleo y sociedad para llenar en parte un clamoroso vacío sobre la influencia que la tecnología tendrá en el futuro próximo. Aparecen con creciente frecuencia en los medios noticias sobre si los robots nos quitarán el empleo o si la inteligencia artificial dominará el planeta. Pocas de ellas están bien documentadas, pero al menos tienen la virtud de suscitar la atención sobre el tema. Peor aún es el caso de la política en el que el tema ni siquiera se menciona.

¿Crees que la inteligencia artificial es muy lista o por el contrario piensas que es muy tonta?

La inteligencia artificial general IAG concebida como un ente capaz de solucionar cualquier problema es ciencia ficción y su amenaza, en palabras de Andrew Ng, ingeniero de Google, profesor de Stanford, jefe científico de Baidu (el buscador chino) y cofundador de la empresa de cursos online Coursera, es como como preocuparse de la sobrepoblación en Marte. El principal problema que la tecnología ha supuesto durante siglos es su amenaza contra el empleo. Por ejemplo, hay tres millones y medio de camioneros en Estados Unidos. Creo que necesitamos que los líderes gubernamentales y empresariales hablen sobre esto y pienso que el énfasis en los malvados robots asesinos es una distracción innecesaria”.

La inteligencia artificial es más bien como un ejército de hormigas que están en todas partes, ayudadas por el ubicuo teléfono móvil. Pequeñas aplicaciones de inteligencia artificial van ocupando un espacio cada vez mayor.

La tecnología destruye empleos, siempre ha sido así. La economía clásica dice que los empleos destruidos en un sector se crearán en otro: de la agricultura a la industria y de esta a los servicios. Pero no está nada claro que esto siga siendo así. ¿Hablamos de los empleos de una empresa como Whatsapp con 50 empleados? Dicen que por cada empleo que se crea en Amazon se destruyen cuatro en la economía tradicional. Amazon, una empresa que emplea miles de robots. ¿Y China? La robotización de la segunda economía del mundo es acelerada.

Pero la tecnología trae también la abundancia y el bienestar. Nadie lo diría viendo las noticias, pero el mundo mejora deprisa. La esperanza de vida, la lucha contra las pestes del pasado (incluyendo la malaria que ha descendido un 40% desde 2000), la educación, la democracia, o la violencia y las guerras mejoran.orbe2

El trabajo es odiado y deseado. Pero en la actualidad es deseado casi exclusivamente por los ingresos que reporta. La mayoría de la gente detesta su trabajo y es sencillo ponerse en el lugar de los muchos trabajos que la gente realiza solo por dinero.

Si las máquinas hacen el trabajo, los propietarios de estas se enriquecen y los asalariados se empobrecen: la desigualdad aumenta en el mundo. Algunas ideas como la renta básica universal son una propuesta a considerar.

Mientras tanto estamos educando a los jóvenes para un mundo que no existirá. Pretender que van a tener un empleo como los de antes es generar una enorme frustración.

¿Estamos preparados para el futuro?