La minería y explotación de datos

Publicado en parte en la revista AMF

Es casi un mito en el mundo del data mining o Big Data la anécdota contada por el periodista Charles Duhigg en The New York Times, de cómo la cadena americana de supermercados Target, “adivinaba” que sus clientas estaban embarazadas, incluso antes que sus propios familiares. Esta magia estadística se basaba en asignar a cada cliente femenina posibilidades de embarazo de acuerdo a sus hábitos de compra. La cadena poseía millones de este tipo de datos y resultaba fácil, aparentemente, crear un modelo donde se asignaba una probabilidad a un resultado (por ejemplo, el embarazo), en tanto en cuanto se conocían los productos que las mujeres embarazadas compraban antes, y al inicio del embarazo. Además, y aplicando el teorema de Bayes, la probabilidad de la hipótesis variaba, y se hacía más o menos potente a medida que obtenía más información de compra de productos.

Por otro lado, Timothy Libert, público hace un año en el BMJ (3) un artículo, resumen de uno anterior, donde se alertaba sobre la información que proporcionamos cuando realizamos búsquedas sobre salud en los buscadores habituales, o cuando visitamos páginas web sanitarias. Muchas de las direcciones de páginas que visitamos, contienen información específica relacionada con alguna enfermedad, tratamiento o síntoma médico. Como quiera que estas URls se almacenan en servidores propios y de terceros, el análisis de estas direcciones puede revelar a los dueños de estos servidores información sanitaria sensible, que se liga facilmente al usuario del ordenador.

Tomando la base de estos dos mimbres podemos explicarnos el artículo publicado, en una revista no muy familiar para los médicos de familia, y que he conseguido una vez más gracias a mi bibliotecaria favorita. Su autores son investigadores de Microsoft y se titula Detección de adenocarcinoma pancreático utilizando señales provenientes de los registros de búsquedas web: Estudio de viabilidad y resultados.

joconcolEn este trabajo los autores construyen un modelo utilizando métodos estadísticos predictivos complejos, y una cantidad enorme de datos que se recogen de la actividad en la red de los pacientes. Actúan así bajo la presunción de que esta actividad puede dar pistas sobre enfermedades todavía no diagnosticadas, en este caso: adenocarcinoma de páncreas. En el articulo se analizaron registros de búsqueda a gran escala de personas que hubieran buscado información en el buscador Bing sobre adenocarcinoma de páncreas y/o una serie de síntomas y factores de riesgo que se producen en ese tipo cáncer. Por otro lado, se identificó un subgrupo de pacientes que habían buscado sobre cáncer pancreático, y que, gracias a que realizaban búsquedas explicitas, se había determinado que padecían esa enfermedad (experiential searches o búsquedas que son altamente sugestivas de un diagnóstico de adenocarcinoma de páncreas por un profesional)

Una vez identificados estos dos grupos se obtuvieron retroactivamente, los registros de la actividad de búsqueda para examinar los patrones de síntomas y factores de riego, que son expresados como búsqueda. A partir de estos se construyeron clasificadores estadísticos que predecían la aparición futura de cáncer de páncreas. Es decir, las consultas históricas originaban patrones a partir de señales observadas en los registros de búsqueda que permitían predecir el futuro de aparición de experiential searches, pudiéndose identificar de 5% a 15% de los casos, preservando al mismo tiempo tasas extremadamente bajas de falsos positivos. Los autores concluyen que las señales (o búsquedas sobre determinados síntomas y factores de riego) en los registros de búsquedas web muestran las posibilidades de predicción de un diagnóstico, cercano en el tiempo de adenocarcinoma de páncreas; a partir de combinaciones de señales temporales sutiles reveladas en las consultas de los buscadores.

La verdad es que no hemos entendido muy bien los métodos estadísticos que describen, muy alejados de los que se utilizan en medicina, para conformar el modelo, tampoco seriamos capaces de explicarlo en términos de una prueba de cribado, pero estas conclusiones dan un poco vértigo y nos hablan del valor real y aplicaciones beneficiosas del data mining en sanidad por encima de tanta palabrería sin base sobre el Big Data.

Un Comentario

  1. Pingback: Las búsquedas web podrían se&ntil...

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.