Por qué las pruebas para detectar enfermedades no son tan confiables como se piensa

Te sientes mal y consultas a tu médico. Te hacen algunas preguntas y extraen sangre para analizarla. A los pocos días te llaman para decirte que te han diagnosticado una enfermedad.

¿Cuáles son las posibilidades de que realmente tengas esa enfermedad? Para algunas pruebas comunes de diagnóstico, la respuesta es sorprendentemente baja.

Pocos análisis médicos son 100% precisos. Parte de la razón es que las personas son inherentemente variables, pero muchas pruebas también se basan en muestras limitadas o sesgadas de pacientes, y nuestro propio trabajo ha demostrado que los investigadores pueden exagerar deliberadamente la efectividad de nuevas pruebas.

Nada de esto significa que debamos dejar de confiar en los análisis de diagnóstico, pero una mejor comprensión de sus fortalezas y debilidades es esencial si queremos utilizarlos sabiamente.

Las personas son variables
Un ejemplo de un análisis imperfecto ampliamente utilizado es la prueba de detección del antígeno prostático específico (PSA), que mide el nivel de una proteína particular en la sangre como indicador de cáncer de próstata.

Se estima que la prueba detecta el 93% de los cánceres, pero tiene una tasa muy alta de falsos positivos, ya que alrededor del 80% de los hombres con un resultado positivo en realidad no tienen cáncer.

Para aquellos en ese 80%, el resultado crea un estrés innecesario y probablemente se les somete a más pruebas, incluidas biopsias dolorosas.

Las pruebas rápidas de antígenos para covid-19 son otro ejemplo de análisis imperfectos muy utilizados.

Una revisión de estas pruebas encontró que, de las personas sin síntomas pero con un resultado positivo, solo el 52% en realidad tenía covid.

Entre las personas con síntomas de covid y un resultado positivo, la precisión de las pruebas aumentó al 89%.

Esto muestra cómo el desempeño de una prueba no se puede resumir en un solo número y depende del contexto individual.

¿Por qué las pruebas de diagnóstico no son perfectas? Una razón clave es que las personas son variables.

Tú puedes tener una temperatura alta, por ejemplo, que en otra persona puede ser perfectamente normal.

En los análisis de sangre, muchos factores extraños pueden influir en los resultados, como la hora del día o la última vez que se ha comido.

Incluso la omnipresente prueba para medir la presión arterial puede resultar inexacta. Los resultados pueden variar dependiendo de si el brazalete se ajusta bien a tu brazo, si tienes las piernas cruzadas y si estás hablando cuando finaliza la prueba.

Muestras pequeñas y trampas estadísticas
Hay una enorme cantidad de investigaciones sobre nuevos modelos de diagnóstico.

Los nuevos modelos suelen aparecer en los titulares como “avances médicos”, como por ejemplo cómo tu escritura podría detectar la enfermedad de Parkinson, cómo tu tarjeta de cliente de tu farmacia podría detectar el cáncer de ovario más temprano o cómo los movimientos oculares podrían detectar la esquizofrenia.

Pero cumplir con las expectativas de los titulares es algo totalmente distinto.

Muchos modelos de diagnóstico se desarrollan basándose en tamaños de muestra pequeños. Una revisión encontró que la mitad de los estudios de diagnóstico utilizaron poco más de 100 pacientes.

Es difícil obtener una imagen real de la precisión de una prueba de diagnóstico a partir de muestras tan pequeñas.

Para obtener resultados precisos, los pacientes que usan la prueba deben ser similares a aquellos que se utilizaron para desarrollarla.

Por ejemplo, la Escala de Riesgo Cardiovascular Framingham, ampliamente utilizada para identificar a las personas con alto riesgo de enfermedad cardíaca, se desarrolló en Estados Unidos y se sabe que tiene malos resultados entre los aborígenes y los isleños del Estrecho de Torres australianos.

Se han encontrado disparidades similares en la precisión de las “puntuaciones de riesgo poligénico”.

Estas combinan información sobre miles de genes para predecir el riesgo de enfermedades, pero se desarrollaron en poblaciones europeas y funcionan mal en poblaciones no europeas.

Recientemente, identificamos otro problema importante: investigadores que han exagerado la precisión de algunos modelos para lograr la publicación en revistas especializadas.

Hay muchas formas de exagerar el rendimiento de una prueba, como eliminar de la muestra a pacientes cuyo riesgo de enfermedad es difícil de predecir.

Algunas pruebas tampoco son verdaderamente predictivas, ya que incluyen información del futuro, como el modelo predictivo de infección que incluye determinar si al paciente le habían recetado antibióticos.

Quizás el ejemplo más extremo de exageración del poder de una prueba de diagnóstico fue el escándalo de Theranos, en el que un análisis de sangre mediante punción en el dedo que supuestamente diagnosticaba múltiples afecciones de salud atrajo cientos de millones de dólares de inversores.

Esto era demasiado bueno para ser verdad y la autora intelectual fue declarada culpable de fraude.

Los macrodatos no pueden hacer que las pruebas sean perfectas
En la era de la medicina de precisión y los macrodatos, parece atractivo combinar decenas o cientos de datos sobre un paciente (tal vez utilizando aprendizaje automático o inteligencia artificial) para ofrecer predicciones muy precisas. Sin embargo, hasta ahora la promesa supera la realidad.

Un estudio estimó que se publicaron 80.000 nuevos modelos de predicción entre 1995 y 2020. Eso es alrededor de 250 nuevos modelos cada mes.

¿Están estos modelos transformando la asistencia médica? No vemos ninguna señal de ello, y si realmente estuvieran teniendo un gran impacto, seguramente no necesitaríamos un flujo tan constante de nuevos modelos.

Para muchas enfermedades existen problemas de datos que ningún modelo sofisticado puede solucionar, como errores de medición o datos faltantes que hacen imposible realizar predicciones precisas.

Es probable que algunas enfermedades sean intrínsecamente aleatorias e impliquen cadenas complejas de acontecimientos que un paciente no puede describir y ningún modelo puede predecir.

Los ejemplos podrían incluir lesiones o enfermedades previas que le ocurrieron a un paciente hace décadas, que no puede recordar y que no están en su historial médico.

Las pruebas de diagnóstico nunca serán perfectas. Reconocer sus imperfecciones permitirá a los médicos y a sus pacientes tener una discusión informada sobre lo que significa un resultado y, lo más importante, qué hacer a continuación.

Adrian Barnett es profesor de estadística de la Universidad de Tecnología de Queensland y Nicole White es investigadora de estadística de la Universidad de Tecnología de Queensland, Australia. Este artículo apareció originalmente en The Conversation. Puedes leer la versión en inglés aquí.