Etiquetado: Big data

La minería y explotación de datos

Publicado en parte en la revista AMF

Es casi un mito en el mundo del data mining o Big Data la anécdota contada por el periodista Charles Duhigg en The New York Times, de cómo la cadena americana de supermercados Target, “adivinaba” que sus clientas estaban embarazadas, incluso antes que sus propios familiares. Esta magia estadística se basaba en asignar a cada cliente femenina posibilidades de embarazo de acuerdo a sus hábitos de compra. La cadena poseía millones de este tipo de datos y resultaba fácil, aparentemente, crear un modelo donde se asignaba una probabilidad a un resultado (por ejemplo, el embarazo), en tanto en cuanto se conocían los productos que las mujeres embarazadas compraban antes, y al inicio del embarazo. Además, y aplicando el teorema de Bayes, la probabilidad de la hipótesis variaba, y se hacía más o menos potente a medida que obtenía más información de compra de productos.

Por otro lado, Timothy Libert, público hace un año en el BMJ (3) un artículo, resumen de uno anterior, donde se alertaba sobre la información que proporcionamos cuando realizamos búsquedas sobre salud en los buscadores habituales, o cuando visitamos páginas web sanitarias. Muchas de las direcciones de páginas que visitamos, contienen información específica relacionada con alguna enfermedad, tratamiento o síntoma médico. Como quiera que estas URls se almacenan en servidores propios y de terceros, el análisis de estas direcciones puede revelar a los dueños de estos servidores información sanitaria sensible, que se liga facilmente al usuario del ordenador.

Tomando la base de estos dos mimbres podemos explicarnos el artículo publicado, en una revista no muy familiar para los médicos de familia, y que he conseguido una vez más gracias a mi bibliotecaria favorita. Su autores son investigadores de Microsoft y se titula Detección de adenocarcinoma pancreático utilizando señales provenientes de los registros de búsquedas web: Estudio de viabilidad y resultados.

joconcolEn este trabajo los autores construyen un modelo utilizando métodos estadísticos predictivos complejos, y una cantidad enorme de datos que se recogen de la actividad en la red de los pacientes. Actúan así bajo la presunción de que esta actividad puede dar pistas sobre enfermedades todavía no diagnosticadas, en este caso: adenocarcinoma de páncreas. En el articulo se analizaron registros de búsqueda a gran escala de personas que hubieran buscado información en el buscador Bing sobre adenocarcinoma de páncreas y/o una serie de síntomas y factores de riesgo que se producen en ese tipo cáncer. Por otro lado, se identificó un subgrupo de pacientes que habían buscado sobre cáncer pancreático, y que, gracias a que realizaban búsquedas explicitas, se había determinado que padecían esa enfermedad (experiential searches o búsquedas que son altamente sugestivas de un diagnóstico de adenocarcinoma de páncreas por un profesional)

Una vez identificados estos dos grupos se obtuvieron retroactivamente, los registros de la actividad de búsqueda para examinar los patrones de síntomas y factores de riego, que son expresados como búsqueda. A partir de estos se construyeron clasificadores estadísticos que predecían la aparición futura de cáncer de páncreas. Es decir, las consultas históricas originaban patrones a partir de señales observadas en los registros de búsqueda que permitían predecir el futuro de aparición de experiential searches, pudiéndose identificar de 5% a 15% de los casos, preservando al mismo tiempo tasas extremadamente bajas de falsos positivos. Los autores concluyen que las señales (o búsquedas sobre determinados síntomas y factores de riego) en los registros de búsquedas web muestran las posibilidades de predicción de un diagnóstico, cercano en el tiempo de adenocarcinoma de páncreas; a partir de combinaciones de señales temporales sutiles reveladas en las consultas de los buscadores.

La verdad es que no hemos entendido muy bien los métodos estadísticos que describen, muy alejados de los que se utilizan en medicina, para conformar el modelo, tampoco seriamos capaces de explicarlo en términos de una prueba de cribado, pero estas conclusiones dan un poco vértigo y nos hablan del valor real y aplicaciones beneficiosas del data mining en sanidad por encima de tanta palabrería sin base sobre el Big Data.

¿preparados?

Los pilares de la renovación en los centros de salud  vía @granadahoy

El desarrollo de nuevas herramientas tecnológicas aplicadas al sistema informático del SAS, el Diraya, permitirá cruzar datos y analizarlos, lo que facilitará un mayor equilibrio en las cargas asistenciales. “Un codificador leerá todos los diagnósticos de cada paciente -en todas las especialidades en las que sea atendido- de manera automática”, añade Aranda. Este codificador permitirá al sistema sanitario calcular la morbilidad y el grado de complejidad de los usuarios para tener en cuenta estos factores esenciales a la hora de redistribuir las tarjetas sanitarias.

“La herramienta permitirá clasificar a los pacientes pluripatológicos, por ejemplo los diabéticos e hipertensos, que necesitan un abordaje distinto y diferenciado de los diabéticos que no sufren hipertensión”, añade el gerente del SAS. La preparación de la base de datos del SAS para la inclusión de esta herramienta informática ha requerido un año.

Dos formas de obtener conocimiento: Big Data y Medicina Basada en la Evidencia

 

Como comentábamos en el anterior post, la revista Annals of Internal Medicine publica un breve artículo de opinión sobre big data y medicina basada en la evidencia, resumen de la intervención del autora en el 3rd Annual Cochrane Lecture, de octubre de 2015 (vídeo disponible)

El artículo cuya traducción “libre” al español se puede encontrar aquí expone que aunque los “Big Data” parecen ser una alternativa poderosa y tentadora a la medicina basada la evidencia (como algunos atolondrados gurús sugieren) este enfrentamiento se cierra en cuanto comprendemos que tener datos no es igual a conocimiento.

Como se comenta en el artículo, lo que se ha venido a denominar Big Data o Datos masivos es un concepto que hace referencia a la acumulación de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. En medicina, la actividad diaria genera enormes cantidades de datos recogidos por los médicos en las historia clínica electrónica, a los que se puede añadir los datos generados de la monitorización (Quantified self) con los nuevos sensores móviles (wearables) o los presentes en las redes sociales. Sin olvidar la clásica fuente de información de la literatura médica. Análisis y sistemas como Watson de IBM están ya fusionando datos genómicos, literatura médica publicada, y datos de la HCE para guiar, por ejemplo, tratamientos contra el cáncer.

taxoGracias a Big Data el ritmo, las fuentes de datos, y los métodos para generar pruebas médicas cambian radicalmente pero no hay que  intentar separar la investigación clínica de estos métodos, ni debemos porque la medicina basada en la evidencia y los big data tienen fortalezas complementarias. Como se ve en la figura, los métodos de big data puede incluirse en una taxonomía de los tipos de estudios que es familiar a la mayoría de los investigadores clínicos. Pueden además ofrecer una ampliada potencia a otros tipos de estudios analíticos.

En resumen la medicina basada en la evidencia necesita la potencia de cálculo de los big data y estos el rigor epistemológico de la MBE.

 

Big Data, MBE ruido y nueces

Big Data por todos lados. Cualquiera que siga las tendencias actuales en salud habrá oído hablar o leído algo sobre los big data. Se ha oído tanto, que ya es un lugar casi común al igual que lo fue en su momento en otras disciplinas y campos (la salud, o mejor dicho los “adelantados” sanitarios siempre van algo retrasadillos). Un fenómeno, este de los big data del que, como comprobé en una serie de conferencias de la fundación Telefónica, muchos (demasiados) hablan, pocos conocen en profundidad, y muchos menos, lo utilizan con provecho.Vamos como otras cosas que luego trasmutan en burbuja tecnológica.

bigdata23

Hello World! | Christopher Baker Instalación audiovisual alimentada por fragmentos de miles de diarios personales grabados en vídeo y colgados en internet

La capacidad para aprender de datos e información situados en formatos y lugares inaccesibles hasta  ahora, e incluso  poder replicar el conocimiento tácito, es una vieja aspiración de la gestión del conocimiento que se torna en realidad con la aparición las historias clínicas digitales, la capacidad de manejar gran cantidad de datos de forma ágil y rápida (Big Data), el aprendizaje automático y la inteligencia artificial.

Pero de ahí a hablar como hace algunos gurus patrios de nuevo paradigma que va cambiar radicalmente la forma de practicar y tomar las decisiones en medicina, hay un trecho importante que intentare explicarme (si explicarme porque todavía no lo entiendo del todo, como para explicarlo a los demás) algún día. Todavía no sé cómo hincarle  el diente a estos nuevos fenómenos computacionales que mezclan un masa de datos informe con unas gotas de sabiduría de las multitudes, esencia de smartmob , un chorrito de robótica y otro de inteligencia artificial, y todo ello en un gran molde de ignorancia  sobre los efectos de esta pócima.

Sin duda una de las más atractivas y a la vez osadas aseveraciones de estos profetas es la superación (sin piedad, ni concesiones) de la medicina basada en la evidencia por una medicina generadora de evidencias (sic), demostrando que desconocen lo sustantivo de las dos herramientas. Otros investigadores más prudentes e informados abogan por incluir el portento Big Data en una importante (pero una mas) de las posibles fuentes de evidencias o pruebas. Entre ellos está Ida Sim, profesora de la UCSF School of Medicine que tanto en sus  intervenciones en un coloquio Cochrane (ver vídeo más abajo) como en un artículo breve que resume esta intervención publicado en el Annals of Internal Medicine hace unos días (mañana aparecerá en este blog la traducción) pone de manifiesto la complementariedad de ambas tendencias, y su espléndido futuro siempre que sea conscientes de sus limitaciones y fortalezas.

El conocimiento generado durante la práctica

El conocimiento generado durante la práctica irremisiblemente perdido.

Bravo R. Knowledge management in medicine: in search of lost information. An Sist Sanit Navar. 2002 Sep-Dec;25(3):255-72

adanismoSin contemplar la parte de conocimiento tácito, una fuente de conocimiento de incalculable valor es la que se genera durante la práctica cotidiana.

Diariamente millares de médicos obtienen datos sobre casos y enfermedades similares, registran una cantidad ingente de información sobre el curso natural de las enfermedades o reacciones adversas a medicamentos, y consiguen millones de resultados de pruebas diagnósticas.

Dado el entorno en que se trabaja, dominado por el soporte papel, la tasa de re utilización de esta información y su capacidad para generar conocimiento es prácticamente nula.data

La informatización plena de todos los procesos sanitarios administrativos y clínicos serían capaces de crear grandes bases de datos clínicas. La capacidad relacional de estas bases de datos y el diseño de programas específicos destinados a la extracción de datos permitirían obtener, en tiempo real, un flujo de información que generaría conocimiento y facilitaría la retroalimentación.

El reto de trasladar los Big Data a una mejor asistencia sanitaria

The Challenges of Translating Big Data into Better Patient Care

de JAMA internal Medicine Blog. Traduccíon de Carlos F Oropesa de Sala de lectura

El movimiento para mejorar la calidad sanitaria viaja sobre una ola de entusiasmo por los big data, alimentada por la capacidad de los ordenadores de almacenar y manejar los datos. Tener los datos en la yema de los dedos, según esta teoría, nos dará información y motivará para mejorar la forma en la que atendemos a nuestros pacientes.

big_dataSin embargo, dos estudios largos y bien diseñados publicados en JAMA (aquí y aquí) cuestionan esta suposición. Ambos investigaron el efecto de los participantes en el National Surgical Quality Improvement Program (NSQIP) un reputado servicio de obtención y compartición de datos proporcionado (mediante pago) por el American College of Surgeons. Los hospitales que utilizan el NSQIP no obtienen mejores resultados que los que no los utilizan, ni una tasa de mejoría más rápida. Los estudios sobre el NSQIP se añaden a una creciente montaña de literatura que indican que amasar grandes cantidades de datos no se traduce en un mejor desempeño.

Como señala Berwick en su comentario editorial no es el tamaño de tus datos, sino lo que haces con ellos, lo que realmente importa.

No hay dudas de que los datos son necesarios para comprender y mejorar procesos. Pero a fin de cuentas lo que se necesita es gente pensante que pueda interpretar y traducir los datos para producir conocimiento con el que conseguir mejoras en el cuidado de los pacientes. El riesgo de nuestra fascinación con los big data es que podemos malgastar muchos recursos en recoger datos (el NSQIP cuesta decenas de miles de dólares) descuidando la inversión dirigida a cómo utilizar la información acumulada.

El desvío de recursos al big data es especialmente problemático cuando los datos no se ajustan a las necesidades u objetivos locales. Una hoja de recogida de datos garabateada en un trozo de papel, diseñada para responder a una pregunta específica importante a nivel local, es en algunos casos más pertinente y eficaz que los datos recogidos a un gran costo a escala nacional.

Los datos son críticos para mejorar los resultados, pero necesitan ser seleccionados y su recogida debe diseñarse teniendo en mente preguntas concretas y utilizados para orientar la mejora actual. De otra forma, son sólo números.”

Inteligencia natural

sam3

Traducción al español, más abajo

Conocer la incidencia real y en tiempo real de las enfermedades transmisibles o no, percatarse de todas las reacciones adversas de un fármaco y su frecuencia, averiguar cuantos aneurismas silentes se acaban rompiendo, monitorizar si los pacientes toman realmente los fármacos que se les prescriben, si un nuevo medicamento está contraindicado o interacciona con el tratamiento que ya recibe el enfermo, investigar cuan frecuentes son las complicaciones infecciosas de una enfermedad viral, o cuanto baja la tensión arterial o reduce la frecuencia cardíaca un medicamento en condiciones reales y no de un ensayo clínico, son conocimientos que harían que la atención medica fuera mucho más eficaz y probablemente más barata.

Son demasiadas las decisiones que se toman en medicina que se basan en información escasa y de poca calidad. Cualquier profano que  por diversos motivos, se adentra en el estudio de una enfermedad, y eso ahora es muy fácil, se da cuenta de lo aleatorio de muchas de las decisiones médicas. sam5No es que “cada maestrillo tenga su librillo” es que “cada uno hace de su capa un sayo”, con desigual fortuna para los pacientes. Muchas veces los actos médicos se parecen más a una lotería que a una ciencia.

Eso sí una lotería con sentido común, experimentada y benéfica.

Se está estudiando, con seguridad no lo suficiente, el proceso de toma de decisiones en medicina y un futura solución se avanza con el desarrollo del análisis y procesado masivo de datos o big data y la inteligencia artificial tipo Watson de IBM.

Para que se puedan utilizar realmente estos avances no es necesario que los datos estén estructurados, pero si que sean reales, coherentes y sobre todo que sean utilizables.

Desgraciadamente nuestras historias clínicas electrónicas (HCE) no cumplen los requisitos para ser la fuente de estos datos.

La mayoría son fiel reflejo de la historias en papel, con muchos de sus defectos y algunas virtudes que ahorran tiempo y contentan a tibios y meapilas. Sin embargo no aprovechan todas las ventajas presentes y “a futuro” del formato digital. Con ventajas obvias, el problema es que en sanidad la “informatización” no ha sido realizada de forma correcta y “seguimos trabajando igual (de mal) que siempre”.

En un futuro no tan lejano dispondremos de Samanthas que elegirán su nombre sobre la marcha, esperemos que nuestro médicos disponga de la misma tecnología para cuidarnos y curarnos. Para ello necesitaremos que los profesionales se den cuenta de la importancia de los datos que manejan (es penoso ver como se cumplimentan las HCEs) y que nuestros dirigentes y lideres tengan a su alcance no ya inteligencia artificial, sino un poquito de inteligencia natural.

Traducción:

Voz de mujer

(alegre y casual)

Hola, estoy aquí.

Teodoro:

(sorprendido)

Oh, hola.

Voz de mujer

Hola, ¿cómo estás?

Teodoro:

(no seguro de cómo interactuar)

Estoy bien. ¿Cómo va todo?

Voz de mujer

Bastante bien, Encantada de conocerte.

Teodoro:

Sí, es un placer conocerte, también.

¿Como debo llamarte? ¿Tiene un nombre?

Voz de mujer

Sí. Samantha.

Teodoro:

¿En serio?

¿De dónde sacaste ese nombre?

SAMANTHA

Yo misma me lo puse

Teodoro:

¿Cómo?

SAMANTHA

Me gusta como suena. Samantha.

Teodoro:

¿Cuándo te los pusiste?

SAMANTHA

Justo cuando me preguntaste si yo tenia un nombre, pensé, sí, tiene razón, yo necesito un nombre. Pero yo quería uno bueno así que lei un libro llamado Cómo Nombrar a su bebé, y de los 180.000 nombres, es el que más me gustó.

Teodoro:

¿Lees un libro entero en el segundo que te pregunté por tu nombre?

SAMANTHA

En dos centésimas de segundo en realidad

Wearable Medicina

batesLa versión española de la undécima edición (2013) de un famoso del libro de texto sobre examen físico en medicina, incluye una portada ocupada por un esfigmomanómetro aneroide, instrumento médico empleado para la medición indirecta de la presión arterial. Este artilugio fue inventado en el año 1881 y aun así, es con seguridad el utensilio más empleado en la práctica médica actual.

Si la medicina no fuera una profesión tan falsamente anclada en las tradiciones, esta portada no sería posible salvo para documentar un libro sobre historia de la medicina.

Las forma de medir las variables biológicas del cuerpo humano está cambiando de forma acelerada. Los weareables, pulseras, relojes u otros dispositivos hace tiempo que ocupan los cuerpos de personas que se dedican a cuantificar ese improductivo gasto de energía, que se llama ejercicio físico. La decimocuarta edición del informe anual de Telefónica: La Sociedad de la Información en España, correspondiente a 2013 incluía como tendencia de futuro “ la inteligencia para llevar: los wearables” y en el último congreso mundial de móviles de Barcelona esta tecnología fue la estrella con presentación de atractivos modelos por parte de la industria. huawei-talkband-b1-mainLa siempre innovadora compañía Apple apuesta en su próxima versión del sistema operativo móvil por una aplicación propia (Healthbook sería su nombre) que no solo se encarga de cuantificar nuestra actividad diaria, también mostrará diferentes medidas como el nivel de azúcar en sangre, la calidad del sueño, el nivel de hidratación, o la presión sanguínea.

Es un nuevo paso en lo que se ha dado en llamar el yo cuantificado (quantified self) que en sus inicios  se conformaba con dispositivos primitivos que recogían variables recreativas relacionadas con el bienestar y salud física o fitness, pero que aumentan su radio de acción cada vez más.

¿Qué hará un médico cuando se presente un paciente con un completo y detallado  registro de su tensión arterial, combinado además en una atractiva gráfica con otras actividades como la comida, el sueño o el ejercicio? ¿Qué haremos con la ingente cantidad de datos que “el cuerpo” de nuestros clientes sanos y enfermos está generando y que ahora se pueden recoger de manera fácil y económica? healthbook-book(2)_2

La manera actual de medir, definir y controlar muchas “enfermedades” se basa en lecturas estáticas de variables indirectas, muchas veces con dispositivos inexactos y obsoletos.

No es seguro si seremos capaces de redefinir nuestro concepto de anormalidad y enfermedad, de reevaluar el efecto de nuestras intervenciones y tratamientos con esta nueva información.

Tampoco esta claro si nuestras obsoletas historias clínicas electrónicas podrán aprovechar e interpretar todos los datos que se les pueden presentar.

No sabemos en definitiva si seremos capaces de reordenar la forma en la que prestamos asistencia en un mundo de “muchos y más fiables” datos aportados por el propio usuario y sus innumerables gadgets.