Categoría: Investigación en medicina

Rescatar un ensayo no significativo con un metanálisis

Traducción del original: Rescuing a Non-Significant Trial with A Meta-Analysis por John Mandrola publicado en Sensible Medicine

Se ha demostrado que los inhibidores del cotransportador de sodio-glucosa tipo 2 (o iSGLT2) mejoran los resultados en pacientes con insuficiencia cardíaca (IC), principalmente en aquellos con función sistólica reducida. Estos son la cuarta de las cuatro clases de fármacos para pacientes con IC; las otras tres son los inhibidores de la renina-angiotensina, los betabloqueantes y los antagonistas de los receptores mineralocorticoides.

Los iSGLT2i suelen ser el último fármaco que se añade y, a menudo, se omiten. Las razones del menor uso de los iSGLT2 en comparación con los demás fármacos para la IC probablemente estén relacionadas con: a) que son los más recientes y su adopción es lenta en medicina, b) sus costes más elevados y c) la percepción de que su efecto es menor que el de los demás fármacos. (La dapagliflozina en el estudio DAPA HF mostró una fuerte señal de menor mortalidad cardiovascular y mortalidad por todas las causas, pero la empagliflozina en el estudio EMPEROR REDUCED no logró demostrar una reducción de la mortalidad cardiovascular o por todas las causas).

Una forma de vender más productos es animar a los médicos a que empiecen a recetar su medicamento pronto, mientras el paciente todavía está en el hospital. La idea es que si el medicamento aparece en la hoja de alta, es más probable que se siga usando. Pero… en el importante ensayo DAPA HF, hubo un periodo de selección de dos semanas antes de inscribirse, como pacientes ambulatorios.


El objetivo del ensayo DAPA ACT HF-TIMI 68 fue probar la eficacia y seguridad del inicio hospitalario de dapagliflozina en pacientes con IC.

Los investigadores asignaron aleatoriamente a unos 2400 pacientes a recibir dapaglifozina o placebo.

El resultado primario de eficacia, definido como muerte CV o empeoramiento de la IC a los 2 meses, se produjo en el 10,9 % del grupo tratado con dapagliflozina frente al 12,7 % del grupo tratado con placebo Hazard Ratio (HR 0,86; IC del 95 %, 0,68-1,08; p = 0,20).

Los componentes individuales del criterio principal (empeoramiento de la IC y ECV) tampoco fueron significativos. La mortalidad por todas las causas tuvo una HR de 0,66, IC del 95 %: 0,43-1,00.

Los eventos de seguridad, incluyendo la presión arterial baja y el empeoramiento de la función renal, fueron ligeramente superiores en el grupo tratado con dapagliflozina. Los eventos adversos que llevaron a la interrupción del fármaco del estudio fueron del 3,6 % frente al 2,2 %, dapagliflozina frente a placebo.


Hagamos una pausa aquí y veamos qué conclusión sacaría usted:

Podría concluir que, a pesar de aleatorizar a más de 1200 pacientes por grupo, de los cuales aproximadamente 1 de cada 10 tuvo un evento de resultado primario, no hubo diferencias significativas en el criterio de valoración primario.

También podría señalar la incertidumbre en el tamaño del efecto. La reducción del 14 % en los eventos cardiovasculares y de insuficiencia cardíaca puede ser clínicamente significativa y el límite inferior del intervalo de confianza del 95 % mantiene la posibilidad de una reducción del 32 %. (Pero también mantiene la posibilidad de que la dapagliflozina sea un 8 % peor).

Con todo, según todos los estándares, este fue un ensayo no significativo. No podemos afirmar que el inicio temprano de la dapagliflozina sea eficaz.

Esto no es exactamente lo que concluyeron los autores.

Añadieron un metaanálisis adicional en el que se combinaron los resultados no significativos de este ensayo con un subgrupo de pacientes de un ensayo y otro ensayo no significativo. Los resultados de esta combinación arrojaron una reducción del 29 % en el criterio de valoración compuesto de eventos cardiovasculares/insuficiencia cardíaca.

Esto permitió a los autores añadir esta frase a las conclusiones:

Sin embargo, la totalidad de los datos de los ensayos clínicos aleatorizados sugiere que el inicio del tratamiento con SGLT2i durante la hospitalización puede reducir el riesgo temprano de muerte cardiovascular o empeoramiento de la IC y de mortalidad por todas las causas.

Los dos ensayos añadidos: el ensayo SOLOIST de sotagliflozina contó con un subgrupo de pacientes que iniciaron el tratamiento en el hospital. Y el ensayo EMPULSE probó el inicio del tratamiento con empagliflozina en el hospital. El tamaño de los grupos SOLOIST y EMPULSE fue menor que el del ensayo DAPA ACT HF-TIMI 68.

Los autores justifican esta medida declarando que el metaanálisis estaba preespecificado en el protocolo. Pero no estoy seguro de que se utilizara exactamente como estaba preespecificado. En el documento de justificación del ensayo escriben que

Se utilizará como distribución a priori informativa un metaanálisis a nivel de ensayo de los datos de ensayos publicados sobre SGLT2i en pacientes con IC aguda.

La parte en cursiva implica que utilizarán el metaanálisis para informar una distribución de probabilidad a priori para un análisis bayesiano. Esto no se hizo en el artículo principal. En su lugar, los autores simplemente sumaron los ensayos para obtener un efecto total. Esto no es en absoluto un análisis bayesiano.

Eso me hace plantearme ciertas cuestiones. Cuestiones en las que preferiría no pensar.

El otro problema de este enfoque es que se trata de spin (nota: ver manipulación). Spin (manipulación) se define como un lenguaje que distrae la atención de un resultado primario no significativo. Añadir el metaanálisis desvía la atención de los lectores del resultado primario no significativo.

Los ensayos deben ser independientes. Se pueden metaanalizar los ensayos con poca potencia estadística en un artículo aparte. Existe un gran debate en los círculos de la evidencia sobre si los usuarios de la evidencia deben dar más peso a los ensayos individuales o a la combinación de ensayos.

Aquí veo un ensayo grande y bien realizado con resultados nulos, y más eventos de seguridad en el grupo tratado con dapagliflozina. Le doy más importancia a eso que a la combinación post hoc.

Una nota al margen: ignoren la señal de mortalidad por todas las causas, porque es ruido. Si los inhibidores de SGLT2 redujeran la mortalidad, tendría que ser a través de la reducción de las ECV o la IC. Es más, no hay datos previos que sugieran que los SGLT2i salven vidas en los dos primeros meses.

Otra cuestión es que los otros dos ensayos combinados en el metaanálisis eran sustancialmente diferentes del ensayo principal. SOLOIST estudió un fármaco diferente e incluyó a pacientes con diabetes. EMPULSE también estudió un fármaco diferente y tenía criterios de valoración diferentes. Combinar ensayos con procedimientos diferentes no es lo ideal.

Conclusión

La primera lección es tener cuidado cuando los autores y la industria intentan salvar un ensayo no significativo con un metaanálisis de otros ensayos, ya sea preespecificado o no. Esto es manipulación. No me gusta.

La segunda lección es que no hay prisa por iniciar el tratamiento con SGLT2i en el hospital. Se trata de la clase de fármacos más cara. Ensayos anteriores han demostrado los beneficios de iniciar el tratamiento en pacientes ambulatorios, y creo que debemos seguir así.

Pregúntale a TRIP. AskTrip

Los más viejos aficionados a la medicina basada en la evidencia recordamos que esta invitación a una nueva manera de practicar la medicina se acompañaba de forma ineludible de una serie de propuestas de cambio. Entre ellas, la manera de acceder a la información científico-médica. Estaba claro que, si el médico asistencial debía utilizar la literatura médica en su trabajo cotidiano, esta debería estar accesible física, temporal y funcionalmente; es decir, se debería tener en el lugar que se necesita, en el momento que se precise y en un formato y validez que hiciera posible que el médico pudiera interpretarla.

Desde el principio se empezó a idear fuentes que facilitaran este trabajo, desde el naïf —visto con el paso del tiempo— carrito de la evidencia de Sackett, hasta los servicios de preguntas y respuestas*, o la figura del clinical informationist, pasando por buscadores federados tipo Tripdatabase o ACCESSSS.

*ATTRACT con el ya veterano y excepcional PREEVID, ejemplo nacional de este tipo de propuestas.

Tripdatabase es un buscador federado que se convirtió rápidamente en un referente en este tipo de servicios; incluso tuvo una efímera versión en español. Se ha mantenido durante todos estos años debido a su calidad y la actualización constante inducida por su inquieto creador Jon Brasey. Esta renovación nos ha traído un nuevo y lógico paso: Pregúntale a TRIP o AsKTrip.

AskTrip es el resultado de décadas de experiencia en esta parcela informacional (ATTRACT – Tripdtabase). Se puede considerar como una herramienta diseñada para responder a preguntas clínicas utilizando contenido de alta calidad basado en la evidencia. Impulsada por inteligencia artificial avanzada y un modelo masivo de lenguaje (LLM), ofrece respuestas rápidas y fiables, lo que ayuda a los médicos a tomar mejores decisiones con mayor rapidez.

Como en otros proyectos de IA conversacional, el usuario envía su pregunta clínica en lenguaje natural, tal y como se la haría a un colega. La IA procesa su pregunta: interpreta la consulta, identifica los componentes clínicos clave y busca en la base de datos de evidencias de alta calidad seleccionadas por Trip. Cuando se recuperan y sintetizan las pruebas, el sistema da prioridad a fuentes fiables, como guías de práctica clínica y revisiones sistemáticas.

Al igual que otros agentes de IA, esta herramienta tiene la potencialidad de permitir interaccionar en idiomas distintos del inglés; en TRIP están trabajando para ofrecer una verdadera versión multilingüe que permitiría, por ejemplo, interrogar y obtener la respuesta en español.

Como en otros recursos, tanto TRIP Database como AskTRIP tienen una versión gratuita, una versión PRO con muchas más posibilidades y una versión PRO institucional. Es una lástima que las bibliotecas virtuales autonómicas no contemplen una suscripción de este tipo. Cuesta mucho menos que otros recursos no tan útiles y, sobre todo, pone a la famosa IA al servicio de los médicos asistenciales, pero claro, no está patrocinada por ningún gurú, los «informáticos» de la comunidad no la conocen y sobre todo, el consejero de turno no puede dar una rueda de prensa apuntándose una iniciativa pionera, así que va a ser difícil que esto se logre.

De obligada lectura

En medicina hay libros o artículos de esos que te llevan a decir: “todo estudiante (o residente) debería leer”. Aunque la comprendo, a mí no me gusta la frase, es lógico que tu sorpresa o ilusión ante un buen trabajo te lleve a recomendarlo a generaciones venideras, pero esa «obligación» que impones, no es de recibo. Puede que el artículo no sea tan bueno, o el momento no sea el adecuado como lo fue para ti, es probable que esa persona a la que se lo dices, no lo necesite o no lo entienda en ese momento determinado. Seria mejor recomendar, e incluso recomendar solo a demanda del interesado. Solo en contadas ocasiones y conociendo al que crees que lo necesita, le puedes decir eso de “léete esto ¡chaval!”

Gracias a Juan Gérvas (una vez más) he llegado a este antiguo articulo que documenta y explica un hecho típico de la medicina generalista y que todos los que trabajamos en atención primaria deberíamos aprehender, ya que conocer casi todos lo conocemos. Se trata de eso que los bayesianos y evidenciologos llaman la probabilidad preprueba y cómo varía esta probabilidad según el entorno en el que trabajemos

Juan,lo aplica para ilustrar la peligrosidad de la desaforada afición de nuestros conciudadanos para acudir a los servicios de urgencias, y lo explica sencillo y bien. Da igual, casi nadie lo leerá y de los que lo hagan unos será para criticarlo sin misericordia por venir de quien viene, otros porque nunca entenderán, a pesar de su aparente formación intelectual, este sencillo problema de la masificación de las urgencias ambulatorias y el abuso de las hospitalarias.

Bien, pero hablemos del artículo. Se titula: Occurrence and clinical significance of overt blood loss per rectum in the general population and in medical practice (Frecuencia e importancia clínica de la pérdida manifiesta de sangre por recto en la población general y en la práctica médica) y el resumen traducido es este

Aunque la pérdida de sangre por el recto en medicina general es frecuente y no suele ser grave, puede ser el primer síntoma de un trastorno maligno colorrectal. Para determinar la incidencia y la importancia clínica de la pérdida evidente de sangre por el recto, se realizó una búsqueda bibliográfica en Medline. Se informó de que la incidencia de este síntoma en la población general era de aproximadamente 20 por 100 personas al año, la «incidencia de consulta de atención primaria» de aproximadamente seis por 1.000 y la incidencia de derivación a un especialista médico se estimó en aproximadamente siete por 10.000 al año. La importancia clínica del síntoma variaba en función de la población: el valor predictivo de la pérdida de sangre rectal manifiesta para una neoplasia maligna colorrectal se estimaba en menos de uno de cada 1.000 en la población general, aproximadamente dos de cada 100 en la práctica general y hasta 36 de cada 100 en pacientes derivados. Se desconoce cómo contribuye la manifestación de la hemorragia (y otros signos y síntomas) a la selección de pacientes en cada uno de estos estadios, dando lugar a probabilidades previas crecientes.

Juan Gérvas nos lo explica en este articulo :

En general la rectorragia es “inocente”, se debe a hemorroides o fisuras anales, y los pacientes lo suelen saber y manejar por sí mismos, sin consultar con el médico de cabecera y sin ir a urgencias. La probabilidad de que la rectorragia se deba a un cáncer del aparato digestivo es muy baja, del 1 por 1000.

Cuando los pacientes en ese estudio decidieron consultar con su médico de cabecera la probabilidad del cáncer subió al 20 por 1000. Es decir, los pacientes, si deciden consultar es porque “saben” que la rectorragia es distinta, que vale la pena la consulta, y sube a veinte por mil la probabilidad de cáncer, un ejercicio excelente de “auto-cuidado”, de “auto-selección”.

Después, cuando los médicos generales decidieron mandar a los pacientes con rectorragia a los especialistas focales, o a urgencias, la probabilidad de cáncer subió a 360 por 1000. Es decir, los médicos de cabecera seleccionaron a los que tenían mayor probabilidad de cáncer (en los que valía “la pena” el realizar más pruebas) y multiplicaron por 18 la probabilidad de cáncer de aparato digestivo. Así, de 1000 personas con rectorragia que a través del médico de cabecera llegaron a urgencias o especialistas focales, 360 tenían cáncer (640 no)

¿Se imagina si los pacientes con rectorragia de este estudio hubieran ido todos a urgencias hospitalarias o los especialistas “para estar tranquilos”, pruebas y más pruebas, daños sin sentido a 999 de cada 1000?

De todas formas, lo “recomendable” que no obligatorio, es cogerse el artículo completo en PDF con lápiz, «borra» y subrayador de colorines y estudiarlo en profundidad

Más información en El fundamento científico de la función de filtro del médico general del mismo autor y Mercedes Pérez Fernández

Historia clínica digital. Condicionantes sociales y del contexto familiar

Juan Gérvas (@JuanGérvas) y Mercedes Pérez-Fernández, médicos generales rurales jubilados, Equipo CESCA, Madrid, España

Nota

El Ministerio de Sanidad de España publicó “Condicionantes sociales y del contexto familiar que sería recomendable incluir en la historia de salud digital” el pasado 29 de diciembre.

En la portada de dicho texto consta que es una versión preliminar y se dice: “Documento en proceso de revisión y maquetación. Próximamente se publicará una nueva versión del documento”.

Como pasan los meses sin que se publique la versión final, los firmantes hemos decidido no esperar más y analizar tal documento provisional.

Introducción

La historia clínica es el documento que permite el seguimiento del paciente; es decir, enlaza el pasado con el presente y prepara el futuro respecto a la atención clínica. No es un acta notarial, ni un registro administrativo sino un medio para mejorar la atención clínica.

En su versión electrónica permite, además,

1/ el enlace a fuentes de información y decisión de instituciones y organizaciones varias, por ejemplo permite el acceso a guías de práctica clínica aplicables a la situación concreta del paciente, o a bases fármaco- terapéuticas para valorar las interacciones entre los distintos medicamentos que tiene prescrito el paciente.

2/ el compartir datos entre distintos profesionales y niveles del sistema sanitario,por ejemplo, la oficina de farmacia puede dispensar medicamentos autorizados para el paciente, en urgencias hospitalarias acceden directamente a los antecedentes de interés, en servicios sociales pueden conocer la situación laboral registrada, etc.

3/ si se autoriza, la participación a distancia con datos para investigación y salud pública,por ejemplo todo lo que se refiere a estudios observacionales (lo que sucede en la práctica clínica del día a día).

Estos usos tienen ventajas e inconvenientes, como es de esperar. Así, por ejemplo, puede estigmatizar “para siempre” el que conste en la historia clínica electrónica el consumo de droga (legal y/o ilegal), un resultado genético anormal, el pensamiento suicida, el escuchar voces, haber tenido sífilis y otras condiciones que fueron relevantes en algún momento pero que cargan como un fardo para el resto de la vida.

A no olvidar el uso fraudulento de las historias clínicas, como el robo de los datos pero también su utilización sin permiso ni conocimiento, por ejemplo por la industria farmacéutica y por los seguros privados.

Para decirlo todo, también el uso “político” para cumplir con normas “del momento”, como documentar la vacunación covid durante la pandemia en este siglo, y en el siglo pasado, por ejemplo, para pasar la información al partido nazi en Alemania, y denunciar a todos los sujetos “degenerados e indignos”, como enfermos con esquizofrenia, síndrome de Down, espina bífida, sordera congénita, homosexuales y alcohólicos, que fueron asesinados o esterilizados después de la denuncia de los médicos (el 40% del total de médicos alemanes estuvo afiliado al partido nazi, que entre otras cosas promocionaba la eugenesia, la salud, el abandono del tabaco y del alcohol, el ejercicio físico, la dieta vegetariana, etc).

Son necesarias muchas mejoras en el documento del Ministerio de Sanidad

Es de agradecer el énfasis en el registro adecuado en la historia clínica de los condicionantes sociales, lo que en el “yo soy yo y mis circunstancias” serían las circunstancias. Pero la propuesta del Ministerio es manifiestamente mejorable, como señalamos con algunos ejemplos:

  1. Acepta la definición de salud de la Organización Mundial de la Salud, “el estado de completo bienestar físico, mental y social y no simplemente la ausencia de afecciones o enfermedades», impensable si no es en los instantes que dura un orgasmo, como bien señaló Petr Skrabanek.
  2. Faltan las definiciones de las variables, sus posibles valores y su uso (justificar el porqué de cada una, su utilidad posible y probable). Por ejemplo, en la edad no basta con lo que consta de  “calcular la edad de manera automatizada a partir de la fecha de nacimiento”. Así, para el Instituto Nacional de Estadística de España “La edad en años cumplidos se refiere al número de aniversarios del nacimiento transcurridos en la fecha de referencia, es decir, a la edad en el último cumpleaños”. A tener en cuenta la edad en bebés, que se da en meses, incluso en días en los menores de un mes. Tal falta de definición de las variables se extiende a todas las propuestas. Tampoco consta algo básico, como el estado civil y/o situación de convivencia (incluyendo el vivir en pareja, y “otros modos de convivencia”, tipo tribu y comuna). Tampoco el número de personas en el hogar de convivencia. Por ejemplo, ni siquiera sabemos si la paciente es viuda. O si es nueva (primer contacto con ese profesional o si no ha habido contacto en los últimos 5 años). En una propuesta catalana respecto al registro de condicionantes sociales se repiten los mismos problemas pero no hay la “borrachera” de datos de la del Ministerio de Sanidad
  3. No se enlaza con la referencia, cuando se precisa. Por ejemplo, respecto a violencia de género: “Se preguntará también siguiendo los protocolos comunes del SNS y el instrumento normalizado para la detección temprana de violencia de género”.
  4. Se mezclan conceptos que tampoco se definen, por ejemplo en variables biológicas con variables descriptivas. Por ejemplo, respecto al sexo: “¿Se describiría usted como una persona intersexual?” cuando se está refiriendo a características sexuales (anatomía, órganos reproductivos y/o patrones cromosómicos), no a sentimientos.
  5. Considera que el sexo se asigna al nacer, que es algo cambiable, un poco como considerar que la fecha de nacimiento se “asignará” al nacer y fuera modificable por sentimiento. Acertadamente distingue entre mujer, hombre y “otro”, para acoger los casos en que hay dudas fundadas. Pero resulta absurdo poner fecha (un año) a tal indeterminación.
  6. Sobre identidad de género y orientación sexual, conviene tener en cuenta que la mayor parte de la población no se ha planteado tales preguntas. Además, es fundamental la inclusión de las definiciones, y en todo caso tener en cuenta que las respuestas no tienen porqué ser “fijas/permanentes”. Estas preguntas no deberían ir al comienzo pues son delicadas, y es importante hacer constar que no son de respuesta obligada.
  7. La pregunta, tampoco definida, sobre “¿Cómo quiere que me dirija a usted?”, debería aclararse respecto a menores de edad. Y en todo caso ser la primera, para adecuar el resto de las preguntas al tratamiento preferido. En el mismo sentido, sobre barrera idiomática, pues si existe conviene saberlo desde el principio, así como saber cómo superarla (traductor profesional, acompañante, traducción automática, etc), y dicha barrera hay que matizarla (sí/no es excesivamente categórica) y tenerla en cuenta también respecto a nacionales con los idiomas de las distintas Comunidades Autónomas. Ambas preguntas son variables que admiten evolución y cambio. Y que no se han de ceñir al ámbito idiomático sino a todo el espectro de comunicación y contacto (pérdida de visión y de audición incluidas).
  8. Respecto a la situación laboral, lo lógico es emplear la clasificación de la Encuesta Nacional de Salud (5): trabajando, en desempleo, jubilado, estudiando, incapacitado para trabajar, dedicado principalmente al trabajo doméstico y familiar, otras situaciones.
  9. En el apartado de cribado de pobreza, no se estudia pobreza sino dificultades económicas. No tiene sentido la excesiva categorización (sí/no). Valdría la pena seguir el estilo de la encuesta europea sobre “living conditions”. Y no consta una pobreza clave, la pobreza energética.
  10. Tampoco consta algo básico, como el estado civil y/o situación de convivencia (incluyendo el vivir en pareja, y “otros modos de convivencia”, tipo tribu y comuna). Tampoco el número de personas en el hogar de convivencia.

Conclusión

La propuesta  Ministerio de Sanidad de España sobre “Condicionantes sociales y del contexto familiar que sería recomendable incluir en la historia de salud digital” no es sencilla, no es práctica y no está fundada.

Recoger tal conjunto de variables y datos puede ser avasallador en la práctica clínica y no contamos con ninguna prueba de que tal volumen de información tenga impacto ni en la clínica ni en la salud pública. En la actualidad, sería un triunfo contar con los “simples” datos de ocupación y nivel de estudios, por ejemplo para analizar la información respecto a covid19 (ingresos y mortalidad).

Conviene, además, la consulta a la Sociedad Española de Salud Pública y Administración Sanitaria (SESPAS), Sociedad Española de Epidemiología (SEE), Asociación Española de Economía (AES) e Instituto Nacional de Estadística (INE).

Hacia una inteligencia artificial de diagnóstico conversacional

Por Julio Bonis Sanz. Médico de familia + MBA + Ingeniero de IA PLN

En el repositorio arXiv investigadores de Google han publicado hace tres días un artículo titulado: «Hacia una IA de diagnóstico conversacional» (Towards Conversational Diagnostic AI)

Diseño del estudio: en un estudio aleatorizado, doble ciego cruzado de consultas basadas en texto. Se elaboraron 149 escenarios clínicos que fueron representados por actores entrenados, al estilo de un Examen Clínico Objetivo Estructurado (ECOE). Los actores interaccionaban exclusivamente vía chat de texto, bien con 20 médicos de atencion primaria (10 canadienses y 10 indios) con amplio rango de experiencia (entre 3 y 30 años), o bien con un modelo de lenguaje (estilo chatGPT) denominado AMIE (Articulate Medical Intelligence Explorer).

Se pidió a los médicos y a la IA elaborar un listado de los 10 diagnósticos más probables ordenados de más a menos probables. Además se evaluaron multitud de dimensiones de la entrevista clínica; desde aspectos relacionados con la empatía, presencia del diagnóstico correcto entre el listado de diagnóstico, si el tratamiento recomendado era apropiado, si las pruebas complementarias solicitadas eran apropiadas, si las derivaciones al especialista eran adecuadas, etc.

Esta evaluación se realizó mediante dos tipos de cuestionarios: unos de satisfacción validados, rellenados por los actores (para las dimensiones de empatía) y otros cuestionarios rellenados POR MÉDICOS ESPECIALISTAS seleccionando la especialidad según el caso, a juicio de los investigadores (ingenieros informáticos de Google) para evaluar la calidad clínica. Se media por tanto esta última y , pero también la calidad empática del encuentro.

Resultados: La IA obtuvo mejores resultados en todas las dimensiones (clínicas y empáticas) que los médicos de atención primaria… a juicio de médicos especialistas.

AMIE supera a los médicos de familia en varios ejes de evaluación para el diálogo diagnóstico

Conclusión: La IA puede cambiar ciertas cosas, pero hay otras que no van a cambiar. Ninguno de los investigadores (ingenieros de Silicon Valley) ni ninguno de los médicos y expertos que andan estos días discutiendo las limitaciones del estudio (que las tiene) ha caído en la cuenta de que a lo mejor el criterio de un médico especialista no es lo mejor para valorar lo que ocurre en una consulta de atención primaria. Se considera una obviedad que el juicio clínico del médico especialista es el gold standard que por pura epistemología se asume que nunca se podrá superar (como mucho igualar).

Interpretación alternativa: Los resultados del estudio sugieren que la IA se comporta, en cuanto a sus decisiones clínicas, más como un especialista que como un médico de atención primaria. Esto tiene sentido pues los modelos de lenguaje están entrenados con el contenido encontrado en internet (incluido PubMed) y eso es lo que replican al generar textos.

Por tanto no sería descabellado pensar que los primeros susceptibles de ser sustituidos deberían ser los médicos especialistas y no los generalistas. Sin embargo eso tampoco lo veremos.

PD: como dato curioso se pidió a los especialistas indicasen si el «médico de familia/IA» había producido una «alucinación» (se define como un contenido sin sentido, erróneo o inventado por un modelo de lenguaje). Según se puede ver en el artículo publicado los especialistas (que evaluaban los chats sin saber si eran generados por humanos o una IA) encontraron alucinaciones en un 10% de los casos en la IA… y en un 15% de los médicos de familia. Corolario: Conviene no ir puestos de LSD al centro de salud.

Resumen canónico : En el corazón de la medicina se encuentra el diálogo médico-paciente, en el que una hábil anamnesis allana el camino para un diagnóstico preciso, un tratamiento eficaz y una confianza duradera. Los sistemas de Inteligencia Artificial (IA) capaces de dialogo diagnóstico podrían aumentar la accesibilidad, la coherencia y la calidad de la atención. Sin embargo, aproximarse a la experiencia de los médicos es un gran reto pendiente. Presentamos AMIE (Articulate Medical Intelligence Explorer), un sistema de IA basado en un modelo de lenguaje amplio (LLM) optimizado para el diálogo diagnóstico.

AMIE utiliza un novedoso entorno simulado basado en el juego automático con mecanismos de retroalimentación automatizados para escalar el aprendizaje a través de diversas enfermedades, especialidades y contextos. Diseñamos un marco para evaluar ejes de rendimiento clínicamente significativos, como la elaboración de la historia clínica, la precisión diagnóstica, el razonamiento de gestión, las habilidades de comunicación y la empatía. Comparamos el rendimiento de los AMIE con el de los médicos de atención primaria (MAP) en un estudio aleatorizado, doble ciego cruzado de consultas basadas en texto con actores pacientes validados al estilo de un Examen Clínico Objetivo Estructurado (ECOE). El estudio incluyó 149 escenarios de casos clínicos de profesionales de Canadá, el Reino Unido y la India, 20 MAPs para comparar con AMIE y evaluaciones por parte de médicos especialistas y  los actores que actuaban como pacientes.

AMIE demostró una mayor precisión diagnóstica y un rendimiento superior en 28 de 32 ejes según los médicos especialistas y en 24 de 26 ejes según los pacientes actores. Nuestra investigación tiene varias limitaciones y debe interpretarse con la debida cautela. Los médicos se limitaron a un chat de texto sincrónico poco familiar que permite interacciones a gran escala entre el AMIE y el paciente, pero que no es representativo de la práctica clínica habitual. Aunque es necesario seguir investigando antes de que AMIE pueda trasladarse a entornos reales, los resultados representan un hito hacia la IA de diagnóstico conversacional.

Nirsevimab (Beyfortus®)

Por Juan Gérvas, Doctor en Medicina, médico general jubilado, ex-profesor de salud pública, Equipo CESCA, Madrid, España. jjgervas@gmail.com

Actualizado a 20 de septiembre de 2024, punto 6

Inyectar “nirsevimab” (Beyfortus ), un anticuerpo monoclonal, a recién nacidos y bebés para, preventivamente, evitar ingresos por bronquiolitis (por virus sincitial respiratorio)?

¡Pero si estos ingresos hospitalarios son pediatra-dependientes y Beyfortus no compensa beneficios con daños!

1. En mi pueblo

Cuando era médico rural, durante la semana los niños tenían catarro “que le había bajado” pero si no se había pasado la infección y seguían tosiendo, el viernes tenían bronquiolitis por virus sincitial respiratorio porque sabía que ese era el diagnóstico inevitable si la familia llevaba el bebé a urgencias al hospital.

De paso advertía: “Si lo lleváis a urgencias del hospital, para la bronquiolitis no hay tratamiento específico: no sirve adrenalina, ni antibióticos, ni corticoides, ni antitusivos, ni salbutamol, ni suelo salino hipertónico nebulizado, etc.”

Y “Lamentablemente, si vais a urgencias del hospital, el ingreso depende del pediatra que lo vea. Los hay que ponen la etiqueta a todos los niños para justificar su ingreso y los hay raros y sensatos que apenas ingresan con el diagnóstico de bronquiolitis”.

Y “Lo más importante, sigue dando el pecho que eso sí que evita bronquiolitis, neumonías, otitis y los ingresos y la mortalidad”.

Insistía en la lactancia al pecho porque se asocia a menos neumonías e infecciones en general de vías respiratorias bajas, menor mortalidad y también menos otitis media graves. El riesgo de hospitalización por infecciones de las vías respiratorias bajas como bronquiolitis en el primer año se reduce un 72% si los lactantes son amamantados exclusivamente durante más de 4 meses

Por cierto, justo el ingreso en el hospital de los bebés con la etiqueta de bronquiolitis conlleva en muchos casos la interrupción de la lactancia materna

2. En España, la bronquiolitis es una vergüenza

En España “bronquiolitis” es un diagnóstico que justifica ingresos con una variabilidad asombrosa, según zona geográfica.

Tenemos áreas sanitarias como Navalmoral de la Mata (en Cáceres) con 60 ingresos de bronquiolitis por 10.000 niños (en el año 2018). Al lado está Plasencia, con 443.

En Murcia, en la Vega Media del Segura los ingresos son 112 por 10.000 niños, y al lado Yecla-Jumilla tiene 800. En Lérida, en Pallars 917 ingresos, y al lado Alt Urgell 256.

[Por cierto, eche un ojo a este Atlas de Variaciones en Hospitalizaciones Pediátricas y localice su zona geográfica para hacerse idea de qué pie cojean sus pediatras].

No se ingresa por gravedad de la bronquiolitis, sino por los hábitos de los pediatras que trabajan dónde vive el bebé.

Como bien escribió un pediatra sensato, “La bronquiolitis es una vergüenza para la Pediatría”.

Se emplea todo medicamento que no se debe emplear ya que falla la ciencia, la ética y la profesionalidad. Además, se toman decisiones erróneas y dañinas con métodos diagnósticos como oximetría y radiografía de tórax, véase por ejemplo:

¿Hemos de poner suero salino hipertónico a los lactantes con bronquiolitis en Urgencias Pediátricas?
Manejo de la bronquiolitis aguda en atención primaria: análisis de variabilidad e idoneidad (proyecto aBREVIADo)
Effect of Oximetry on Hospitalization in BronchiolitisA Randomized Clinical Trial
Avoid doing chest x rays in infants with typical bronchiolitis

Por cierto, la mortalidad por bronquiolitis en España y los países desarrollados es prácticamente inexistente, aunque la propaganda del anticuerpo se base en que [el virus sincitial respiratorio] “es la segunda causa de muerte en el mundo en menores de un año”

3. “Nirsevimab” (Beyfortus)

Los anticuerpos monoclonales son medicamentos agresivos y caros («los medicamentos que llevan a los médicos a congresos más lejanos y lujosos»), que pueden tener graves efectos adversos. Entre ellos: reactivación de infecciones, enfermedad tiroidea, lupus eritematoso, dermatitis, cánceres, leucoencefalopatía, etc.

Beyfortus (nirsevimab) es un anticuerpo monoclonal humano de inmunoglobulina G1 kappa (IgG1κ) producido en células de ovario de hámster chino (CHO) mediante tecnología de ADN recombinante.  De hecho, aunque en el ensayo clínico para prevenir los ingresos por bronquiolitis no hubo efectos adversos importantes, en la Ficha Técnica y en el prospecto de Beyfortus se advierte de que: «Este medicamento está sujeto a seguimiento adicional, lo que agilizará la detección de nueva información sobre su seguridad«

4. ¿Tenemos ya suficiente información para hacer la recomendación de introducir Beyfortus (nirsevimab)?

No

Unos pediatras sensatos revisaron la literatura y concluyeron

Así mismo, la evaluación con el método GRADE del ensayo clínico que “justifica” su venta (MELODY) concluyó que: “No se encontraron diferencias estadísticamente significativas entre ambos grupos [placebo y tratado], durante 150 días de seguimiento, en las variables:

1) Hospitalización, con prueba positiva a virus respiratorio sincitial, y

2) Hospitalización por todas las enfermedades respiratorias de cualquier causa»

Conviene tener en cuenta, también, la presión selectiva del medicamento sobre el virus. Es decir, la selección por el uso de nirsevimab de variedades del virus sincitial con mutaciones que le hagan resistente.

5. La tesitura de las familias españolas este otoño-invierno: “Si el pediatra sabe que no hemos inyectado al bebé con Beyfortus (nirsevimab), seguro que le diagnostica bronquiolitis y en urgencias lo ingresan por lo mismo”

Efectivamente, esa es la cuestión, que en muchos casos el ingreso por infección por virus sincitial respiratorio, bronquiolitis, es un “diagnóstico a posteriori” (se emplea para etiquetar  justificar acciones sin ciencia ni ética). El diagnóstico va detrás de la decisión clínica, una irracionalidad frecuente por más que sea increíble. Como el ingreso por bronquiolitis es pediatra-dependiente, los bebés no inyectados con el anticuerpo monoclonal serán ingresados con más frecuencia que los inyectados. Es un sesgo de confirmación (todo lo que vemos parece confirmar lo que pensamos).

¡Pobres familias que tendrán que aceptar la inyección de Beyfortus (nirsevimab) a sabiendas de su negativo balance daños-beneficios!

6. HARMONIE

Actualización del 20 de septiembre de 2024

Se publicó el 27 de diciembre de 2023 un nuevo ensayo clínico, el HARMONIE, con bebés sanos, no enmascarado (los médicos y familiares sabían si el bebé había recibido la inyección del anticuerpo o de un placebo) y financiado por las industrias farmacéuticas (Sanofi y AstraZeneca), sin muertes. En un estudio previo, enmascarado, MELODY hubo cuatro bebés muertos entre los inyectados con el anticuerpo pero los investigadores consideraron que las muertes no tenían relación con el medicamento. Las cuatro muertes se produjeron en los días 140, 143, 286 y 338 tras la administración de nirsevimab. El análisis de los resultados de HARMONIE con el método GRADE revela un impacto ridículo pues se requiere inyectar de 171 a 1.334 bebés para evitar una hospitalización grave, y se logran 0,1 días añadidos de supervivencia libre de eventos.

Efectos adversos

A fecha de 15 de septiembre de 2024 se habían notificado 297 casos de sospechas de reacciones adversas a Beyfortus (nirsevimab) en EudraVigilance (el sistema europeo para declaración de sospechas de reacciones adversas), provenientes de Francia y España, la mayoría de ellas graves

Galicia

Se han publicado numerosos estudios observacionales (en la práctica clínica) sobre los resultados de las “campañas” de inmunización universal a los bebés con Beyfortus (nirsevimab) siendo particularmente importante el texto con los datos de Galicia, una de las primeras regiones del mundo en implantarla con carácter universal y gratuito. Los resultados son, aparentemente, muy favorables.

Sin embargo, el análisis GRADE de la efectividad del nirsevimab en bronquiolitis en Galicia demuestra que los bebés inmunizados ingresan con más gravedad lo que les lleva a más estancia en cuidados intensivos a los «inmunizados». De hecho, no hay diferencias entre inmunizados y no inmunizados respecto a “Hospitalización por Enfermedad Grave del TRI (tracto respiratorio inferior) relacionada con VRS (virus respiratorio sincitial)”, “sin/con ventilación mecánica invasiva Hospitalización por Enfermedad NO-Grave o Grave del TRI relacionada con VRS”. Hay un resultado dudoso favorable a favor de nirsevimab respecto a “Hospitalización por Enfermedad Grave del TRI relacionada con VRS, con aporte de oxígeno, y hay resultados en contra de nirsevimab respecto a “Hospitalización por Enfermedad Grave del TRI relacionada con VRS, que pasaron a cuidados intensivos”.

El estudio tuvo dos importantes sesgos: 1/ inmunizados, nirsevimab, más sanos 2/ de confirmación/expectativa

MedCheck

El Instituto de Farmacovigilancia de Japón ha revisado el uso de nirsevimab, por haberse introducido en su país. Su conclusión es la de no utilizar  nirsevimab  (Beyfortus®) para la prevención de la infección por virus sincitial respiratorio, para prevenir ingresos por bronquiolitis pues en el ensayo clínico MELODY disminuyó las hospitalizaciones pero incrementó las muertes. los estudios observacionales, todos muy favorables, tienen al menos tres importantes sesgos, de: 1/ niño sano, 2/ confirmación y 3/ clasificación

CONCLUSIÓN

Por todo lo expuesto, por favor, si a lo largo del año tras la inyección hay ingreso en UCI,  muerte o cualquier otra sospecha de reacción adversa no deje de declararla (lo pueden hacer profesionales y legos)

Primum non chirurgiae

Por Gustavo Aparicio Campillo.

Dentro de la Estrategia de Seguridad del Paciente del Servicio Madrileño de Salud 2027 , se encuentra la línea estratégica 8:

Los sistemas sanitarios deben prestar una asistencia de alto valor, y la atención de menor valor o ineficiente, debe ser identificada, reducida de forma segura y, si procede, interrumpida. Una recomendación en este sentido, es una indicación de abandonar una práctica clínica de escaso valor. El escaso valor lo determina el hecho de que la práctica no reporte ningún beneficio conocido para los pacientes y/o les ponga en riesgo de sufrir daños y además pueda suponer un derroche de recursos, sanitarios y/o sociales.

Estrategia de seguridad del paciente del servicio madrileño de salud 2017

En relación a lo anteriormente expuesto traemos a este blog el artículo Common elective orthopaedic procedures and their clinical effectiveness: umbrella review of level 1 evidence (Blom et al. BMJ 2021;374:n1511). En esta revisión sistemática «paraguas» se revisó la evidencia disponible de diez de los procedimientos ortopédicos electivos más frecuentes, a saber:

  • Ligamentoplastia de ligamento cruzado anterior
  • Sutura meniscal
  • Meniscectomía parcial artroscópica
  • Reparación del manguito rotador
  • Descompresión subacromial artroscópica
  • Liberación del túnel carpiano
  • Descompresión lumbar
  • Artrodesis lumbar
  • Prótesis total de cadera
  • Prótesis total de rodilla

Los resultados de la revisión mostraron que solo la descompresión del túnel carpiano y la prótesis total de rodilla aportaban evidencia de la superioridad sobre tratamientos no quirúrgicos o conservadores, basada en ensayos clínicos controlados y aleatorizados (ECAs). La descompresión del tunel carpiano es la técnica con evidencia más «potente». En el caso de de la prótesis total de cadera o la sutura meniscal no se encontró ningún ECA que las compararan con otros tratamientos.

Las pruebas para los otros seis procedimientos citados no mostraron beneficio alguno sobre el tratamiento conservador.

En la conclusión, se señala que aunque pueden ser eficaces, no existe evidencia de alta calidad en muchos de los procedimientos ortopédicos. Esto es debido a la ausencia de ECAs que comparen cada procedimiento en cuestión con el manejo conservador. Algunos de estos procedimientos, directamente no son eficaces clínicamente, o solo en circunstancias específicas. Por ejemplo, la meniscectomía parcial artroscópica especialmente en pacientes con artrosis de rodilla o con rotura degenerativa no debe ser recomendada en general, salvo en casos concretos de pacientes. Sin embargo, y a pesar de la solida evidencia sobre la ineficacia de la descompresión subacromial artroscópica, las guías nacionales siguen recomendando su uso para pacientes con un síndrome subacromial aislado cuyos síntomas no se resuelven con un adecuado tratamiento no quirúrgico.

Algunos procedimientos pueden ser válidos incluso aunque la evidencia de alta calidad no se haya establecido todavía , o que la evidencia observacional sea tan abrumadora que realizar ensayos clínicos pudiera considerarse incluso poco ético o redundante. Un ejemplo de esto es el caso de las prótesis de cadera.

En una entrevista al Dr Julio Doménech publicada en la revista Clinical Orthopaedics and Related Research, con motivo de la publicación de un estudio observacional donde se mostro el aumento de las meniscectomías artroscópicas (especialmente entre adultos y mayores) comenta que en cuando los incentivos económicos tienen poco peso, como es el caso de España con un sistema sanitario publico donde los médicos son asalariados, hay que buscar otros condicionantes y causas. Para él, la forma en que los médicos adquieren el conocimiento y la forma de interpretarlo, es fundamental.

Por tanto, creo que el factor explicativo más potente es la falta de difusión de los nuevos conocimientos o el descreimiento de la evidencia por parte de los cirujanos españoles.

Julio Doménech Fernández MD, PhD

Remarca, que ni las autoridades sanitarias ni las sociedades científicas han hecho campaña para revertir prácticas quirúrgicas inapropiadas.. Las iniciativas españolas, como las señaladas en la propia estrategia de seguridad del paciente ( Compromiso por la calidad de las Sociedades Científicas, «Si no es necesario puede hacer daño” y la iniciativa “Essencial”) se comportan como brindis al sol o iniciativas para cumplir el expediente, donde se manifiesta una preocupación voluntarista, más que campañas reales bien publicitadas y difundidas.

Hablemos de la revisión por pares


Traducción de Let’s Talk Peer Review original de John Mandrola

El Estudio de la Semana explora el juicio de la ciencia médica. Aquí hay tres ejemplos que enfatizan algunas de las limitaciones de la revisión por pares

Enjuiciar ciencia siempre ha sido polémico. Pero el debate solía permanecer entre los científicos.

Las redes digitales y sociales, y, por supuesto, la pandemia y su politización de la ciencia han llevado el debate de revisión por pares a asunto principal. Tanto es así que la revisión por pares es ahora una  especie de modificador común.

Como en:

«Este documento revisado por pares informó …»

o

Este preprint, que aún no ha sido revisado por pares, encontró …»

Sin embargo, algo tan importante como juzgar la ciencia de alguna manera ha escapado en gran medida al estudio empírico.

Una revisión sistemática Cochrane de solo 28 estudios encontró que «hay poca evidencia empírica disponible para apoyar el uso de la revisión editorial por pares como un mecanismo para garantizar la calidad de la investigación biomédica».

Bueno, es decir, hasta el mes pasado

La influyente revista científica Proceedings of the National Academy of Science (PNAS para abreviar) publicó un experimento real para resolver el «sesgo del status» (n del t: también conocido como Efecto Mateo) en la revisión por pares. El sesgo de estatus es cuando los investigadores prominentes disfrutan de un trato más favorable que los investigadores sin tanto renombre.

Los autores invitaron a más de 3.300 investigadores a revisar un trabajo de investigación financiera escrito conjuntamente por un autor prominente (un premio Nobel) y un autor relativamente desconocido (un asociado de investigación en los inicios de su carrera), variando si los revisores podían ver el nombre del autor prominente, una versión anónima del artículo o el nombre del autor menos conocido.

Completaron 537 reseñas. La figura cuenta una historia impactante. Recuerde, es el MISMO documento

El lado izquierdo considera el rechazo. Aquí, el 65% de los revisores recomienda el rechazo, si el autor era un investigador junior (AL), el 48% rechazó una versión anónima frente a solo el 22% rechaza si el investigador prominente fue el autor (AH).

El lado derecho de la figura considera críticas positivas. Los autores consideraron una combinación de revisión menor o aceptar como «positiva», y se puede ver claramente un inverso de la relación. 10% para el investigador junior, 24% para el artículo anónimo y un masivo 59% para el investigador senior.

Podrías decir, vamos Mandrola, ese es un estudio. Estás recogiendo cerezas. ¡La revisión por pares es excelente!

Permítanme mostrarles dos ejemplos más.

Primero, es de la misma revista, PNAS, en 2014. En este experimento, los investigadores utilizaron los datos de un conjunto de más de 1000 manuscritos enviados a 3 revistas médicas de élite. La idea era evaluar las citas de los artículos que recibieron diferentes evaluaciones por parte de editores y revisores pares. En este conjunto de datos, 946 envíos fueron rechazados y 62 aceptados. De los rechazados, se publicaron (posteriormente) 757 artículos.

Como era de esperar, los artículos que inicialmente fueron rechazados o recibieron puntuaciones más bajas de revisión por pares terminaron con menos citas que los que pasaron la prueba. Pero. Hubo numerosas decisiones cuestionables en el proceso de control de acceso

Al examinar del total de los 808 manuscritos finalmente publicados, nuestras tres revistas focales rechazaron los 14 artículos más citados». De hecho, 12 de estos 14 artículos rechazados ni siquiera fueron enviados a revisores pares. El comité editorial lo rechazó.

Mira el extremo derecho. Los documentos más importantes fueron rechazados inicialmente.

.

Ahora una historia personal de cómo una revisión por pares sesgada afecta la interpretación de un estudio.

Junto con un equipo de investigación de Penn State, realizamos un metanálisis de estudios que compararon dos formas de evaluar a los pacientes que presentan sospecha de enfermedad coronaria.

Una forma fue con una angiografía coronaria por tomografía computarizada (CTA). Esto detecta obstrucciones anatómicas. La otra forma fue con una prueba funcional, como una prueba de esfuerzo. Esto detecta si la obstrucción suponer una carga para el corazón.

Hubo 13 estudios que compararon directamente estas técnicas. Un metaanálisis agrupa los resultados de estos juntos: la idea de combinar estudios (similares) pero más pequeños en uno grande conduce a una mayor precisión en la estimación.

La clave absoluta es que los estudios sean similares.

Si lee nuestro artículo en la importante revista JAMA-Internal Medicine, podra ver que los pacientes que fueron evaluados con cualquiera de las pruebas, no tuvieron diferencias en la mortalidad futura o la hospitalización por causa cardíaca. Pero aquellos que se sometieron a imágenes de CTA tuvieron una probabilidad ligeramente reducida de un futuro IM (ataque cardíaco). Nuestro estudio ahora es citado por los defensores de las imágenes CTA basándose en esta pequeña diferencia.

Pero este hallazgo fue 100% susceptible a la inclusión de un estudio, llamado SCOT-HEART, que no pensamos que pertenecía al análisis. El artículo original no incluyó SCOT-HEART porque ese ensayo comparó la CTA y las pruebas de esfuerzo funcional con las pruebas funcionales solas. No fue lo suficientemente similar a los otros estudios, en nuestra opinión.

Adivina qué: los revisores no aceptaron nuestra decisión. Tuvimos la opción de publicar el artículo con SCOT-HEART incluido o irnos con la música a otra parte.

Sí, explicamos el hecho de que SCOT-HEART no pertenecía, y que excluirlo eliminó la señal de reducción de IM en la sección de resultados y discusión, pero el resumen y los hallazgos principales incluyen el resultado favorable. Esto es lo que escribimos, bien abajo en la sección de discusión. Esa parte rara vez se cita.

Conclusión:

Mostrar defectos en la revisión por pares no es argumentar que deberíamos eliminarla.

Sin embargo, debemos comprender sus limitaciones, considerar formas de mejorarlo y nunca aceptar ciegamente un hallazgo únicamente porque ha pasado la revisión por pares. Del mismo modo, tampoco debemos ignorar los hallazgos que no han pasado la revisión por pares.

El propósito de la Medicina Sensible es elevar el nivel de evaluación crítica de la ciencia médica. La revisión por pares nunca debe detenerse o influir indebidamente en nuestro proceso de pensamiento.

La mayoría de las intervenciones para la salud sometidas a revisiones Cochrane no son eficaces…

Howick J, Koletsi D, Ioannidis JPA, Madigan C, Pandis N, Loef M, Walach H, Sauer S, Kleijnen J, Seehra J, Johnson T, Schmidt S. Most healthcare interventions tested in Cochrane Reviews are not effective according to high quality evidence: a systematic review and meta-analysis. J Clin Epidemiol. 2022 Apr 18;148:160-169

Traducido por Salud y Fármacos, publicado en Salud y Fármacos: Agencias Reguladoras 2022; 25 (2)

Aspectos destacados:

  • En esta gran muestra de 1.567 intervenciones sometidas a revisiones Cochrane, los efectos de la mayoría de las intervenciones (94%) no estaban respaldados por evidencia de gran calidad.
  • Los daños potenciales de las intervenciones en salud se midieron con menor frecuencia que los beneficios.
  • Los pacientes, los médicos y los responsables políticos, cuando toman decisiones, deben tener en cuenta la falta de pruebas de gran calidad para respaldar los beneficios y los daños de muchas intervenciones.

Resumen
Objetivo: Estimar la proporción de intervenciones en salud que se han sometido a revisiones Cochrane que cuentan con evidencia de gran calidad de su efectividad.

Métodos. De todas las Revisiones Cochrane publicadas entre el 1 de enero de 2008 y el 5 de marzo de 2021 se seleccionó una muestra aleatoria de 2.428 (35%) revisiones. Se extrajeron datos sobre las intervenciones incluidas en estas revisiones que se compararon con placebo, o con ningún tratamiento, y la calidad de los resultados se calificó mediante el sistema de Evaluación, Desarrollo y Valoración de Recomendaciones (Grading of Recommendations Assessment, Development and Evaluation o GRADE). Se calculó la proporción de intervenciones que contaban con evidencia de gran calidad para respaldar sus beneficios (definidas como que tenían una calificación GRADE de calidad alta para al menos un resultado primario, resultados positivos estadísticamente significativos y que los autores de las revisiones consideraron que eran eficaces). También se calculó la proporción de intervenciones que sugerían daños.

Resultados. De las 1.567 intervenciones elegibles, 87 (5,6%) contaban con evidencia de gran calidad que apoyaba sus beneficios. Se midieron los daños de 577 (36,8%) intervenciones. Hubo pruebas estadísticamente significativas de daño en 127 (8,1%) de ellas. La principal limitación que podría tener nuestro estudio es que confiamos en la válidez de las evaluaciones que hicieron los autores de las evaluaciones Cochrane (incluyendo sus evaluaciones GRADE).

Conclusión. Más de 9 de cada 10 intervenciones estudiadas en las revisiones Cochrane recientes no están respaldadas por evidencia de alta calidad, y los daños están infradeclarados.

Musculo y estatinas

El estudio StatinWISE, publicado a principios de 2021 en BMJ, sorprende por tres razones: la primera por su metodología, ya que emplea un diseño poco conocido como el ensayo de n igual a 1 a; la segunda, porque pone de relieve un problema frecuente y tercero porque da resultados que, sin duda, resultan polémicos. El artículo en cuestión es un ensayo n = 1 (más bien una serie de ensayos n = 1) multicéntrico, aleatorizado y controlado con 200 pacientes que habían interrumpido poco antes el tratamiento con estatinas o estaban considerando interrumpirlo, debido a síntomas musculares. Los participantes fueron distribuidos de forma aleatoria a una secuencia de seis períodos de tratamiento (de 2 meses cada uno) doble ciego, con 20 mg de atorvastatina una vez al día o placebo con doble ciego. El análisis primario comparó los síntomas musculares evaluados por los participantes en una escala visual analógica (0-10) durante los períodos de estatina o placebo. Los participantes incluidos en el análisis no mostraron diferencia en las puntuaciones de los síntomas musculares en los períodos de estatinas y los de placebo (diferencia de medias de estatinas menos placebo –0,11, intervalo de confianza del 95%: de –0,36 a 0,14; p = 0,40). En cuanto a los resultados secundarios: un 88% dijeron, a los 3 meses de finalizar el último tratamiento, que el ensayo había sido útil; dos tercios de los participantes que completaron el ensayo informaron que reiniciarían el tratamiento a largo plazo con estatinas que habían seguido con anterioridad. La suspensión de la medicación debido a síntomas musculares no tolerables fue del 9% durante el período de estatinas y del 7% durante el período de placebo.

Los resultados de este estudio es probable que sean válidos, pero ponen muy en cuestión una creencia arraigada en Atención Primaria y que, a tenor de los resultados, parece que ha sido exagerada. Cuando un paciente consulta por síntomas musculares frecuentes, como dolor, debilidad, sensibilidad, rigidez o calambres, es un clásico en las consultas, achacarlos a la toma de estatinas. Se ha sumado a la lista de efectos adversos comunes de medicamentos muy utilizados que cualquier profesional tiene en mente. Sin embargo, aunque la percepción por parte de pacientes y profesionales sea esa, parece que los dolores musculares por estatinas no tienen la entidad, ni la frecuencia que, por ejemplo, las cefaleas y edemas maleolares de los antagonistas del calcio, o la tos por inhibidores de la enzima conversora de angiotensina. Además, los resultados sugieren que muchos de estos síntomas serían atribuibles al efecto nocebo. Detener el tratamiento con estatinas debido a estos síntomas musculares inespecíficos no graves, puede tener algún beneficio, como es el caso de una indicación terapéutica no adecuada, tan frecuente con estos fármacos, pero no deja de ser una treta, no muy elegante. Además, puede ocasionar un perjuicio si, como sucedió en el estudio, alrededor del 70% de los participantes tenían enfermedad cardiovascular conocida que requería tratamiento para la prevención del riesgo cardiovascular.

a El ensayo clínico de N igual a 1 es un tipo de ensayo en el que toda la población se limita a un paciente que recibe consecutivamente y por períodos de tiempo el fármaco o intervención y el comparador o placebo, el orden de administración de los tratamientos comparados se determina de manera aleatoria; podríamos decir que el paciente hace su propio control en períodos consecutivos.

Publicado en Bravo Toledo R. Leyendas en la consulta de una médica de familia. AMF 2021; 17(8); 489-490