Volumen 13 N° 1
Año 2018


Rev. Obstet. Ginecol.- Hosp. Santiago Oriente Dr. Luis Tisné Brousse. 2008; 3(2): 151-154
Notas Estadísticas

Utilidad clínica de las pruebas diagnósticas: Lo mejor es enemigo de lo bueno

Sócrates Aedo M.1
1Diplomado en Bioestadística Aplicada. Departamento de Obstetricia y Ginecología. Facultad de Medicina. Campus Oriente. Universidad de Chile. Hospital Dr. Luis Tisné Brousse..

Resumen

Summary

El sentido común y la capacidad de juicio de los hombres no sólo analizan las diferencias utilizando la resta; también lo hacen utilizando la división. La diferencia entre una pesa de 2 kilos y otra de 6 kilos nos parece mayor que la que existe entre una pesa de 6 kilos y otra de 12 kilos, aun cuando en el primer caso la RESTA sólo llega a los 4 kilos, mientras que en el segundo alcanza los 6 kilos. Parece que lo que importa es que seis dividido por dos da tres, mientras que doce dividido en seis no da más que dos. Lo que buscamos es un COCIENTE y no una RESTA. El ejemplo anterior nos permite plantear que podemos comparar diferencias utilizando la división, y es justamente esto lo que se pretende determinar cuándo cuantificamos la sensibilidad y especificidad de una prueba diagnóstica. El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo.

En casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o gold standard que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad1,2.

 

SENSIBILIDAD1-5

 

Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.

Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir:

 

                               VP

Sensibilidad = ____________, siendo VP = verdadero positivo y FN = falso negativo.

                          VP + FN

 

De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”. Considerando el ejemplo en la introducción del presente artículo la sensibilidad no es más que la comparación para estimar la diferencia entre los sujetos positivos en la prueba diagnóstica y los sujetos en verdad enfermos.

 

ESPECIFICIDAD1-5

 

Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría como:

 

                               VN

Especificidad = ____________, siendo VN = verdadero positivo y FP = falso negativo.

                           FP + VN

 

De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”, lo opuesto a la especificidad (1-especificidad) son los llamados falsos positivos. Resumiendo la especificidad sería la diferencia estimada por cociente entre los sujetos negativos en la prueba diagnóstica y los sujetos sanos.

 

LA UTILIDAD CLÍNICA DE UNA PRUEBA DIAGNÓSTICA.

VALORES PREDICTIVOS1-5

 

Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad.

Sin embargo, cuando a un paciente se le realiza alguna prueba, más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)? Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información:

 

Valor predictivo positivo

 

Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos:

 

                    VP

VPP = ____________, siendo VP = verdadero positivo y FP = falso negativo.

               FP + VP

 

Valor predictivo negativo

 

Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba:

 

                  VN

VPN = ____________, siendo VN = verdadero positivo y FN = falso negativo.

              VN + FN

 

LA INFLUENCIA DE LA PREVALENCIA:

LO MEJOR ES ENEMIGO DE LO BUENO

 

Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades intrínsecas a la prueba diagnóstica, y en teoría, no dependen de la prevalencia de pacientes enfermos incluidos en la muestra en que se evalúa dicha prueba. Sin embargo, en la práctica, algunas características de los pacientes, como el estadio y la gravedad de la enfermedad, pueden estar relacionadas tanto con la sensibilidad y la especificidad de la prueba, como con la prevalencia, debido a que diferentes tipos de pacientes se encuentran en situaciones de prevalencia elevada y baja. La utilización de una prueba para la detección sistemática de la enfermedad ilustra este punto. La detección sistemática o cribado implica la utilización de una prueba en una población asintomática en que la prevalencia de la enfermedad es generalmente baja y el espectro de la enfermedad favorece casos precoces y menos graves. En estas situaciones, la sensibilidad tiende a ser inferior y la especificidad mayor que cuando se aplica la misma prueba a pacientes en los que se sospecha la enfermedad, ya que un mayor número de ellos la sufre en un estado más avanzado6.

Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo1-6.

Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del cáncer de endometrio se utiliza como prueba diagnóstica la biopsia endometrial por Pipelle de Cornier la que ha confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de 96,4% y 99,7% respectivamente7.

Caso 1: Supongamos que se aplicase esta prueba a la totalidad de la población menopáusica de un país “X” en que la prevalencia de cáncer endometrial fuera de 84 por 100.000 habitantes. Si asumimos dicha prevalencia de cáncer endometrial, tenemos que cada 100.000 habitantes habría 84 casos de cáncer endometrial y 99.916 casos sin dicha patología, lo que llevado a una tabla de 2x2 da lo presentado en Tabla 2. Observando la Tabla 2 podemos evidenciar lo siguiente:

 

                                                        81

1.- La sensibilidad de la prueba es ________ = 0,964 ó 96,4%

                                                        84

 

                                                      99.616

2.- La especificidad de la prueba es ________ = 0,997 ó 99,7%

                                                      99.916

 

3.- El total de positivos de la prueba son 381 casos de los cuales 81 son verdaderos positivos y 300 falsos positivos o sea del total de exámenes positivos (381) un 78,7% son falsos positivos.

 

4.- El valor predictivo positivo de la prueba

 

         81

es ________ = 0,213 ó 21,3%

        381

 

5.- El valor predictivo negativo de la prueba

 

          99.616

sería ________ = 0,999 ó 99,9%

          99.619

 

Caso 2: En cambio si aplicamos la misma prueba (biopsia endometrial por Pipelle de Cornier) a una población menopáusica con metrorragia en que la presencia de cáncer endometrial corresponde al 21,9% de los casos, podríamos observar, que cada 1000 mujeres menopáusicas con metrorragia encontraremos 219 casos de cáncer endometrial. A partir de la Tabla 3 en que se representa la situación previamente señalada, observamos:

 

                                                      211

1.- La sensibilidad de la prueba es ________ = 0,964 ó 96,4%

                                                      219

 

                                                         779

2.- La especificidad de la prueba es ________ = 0,997 ó 99,7%

                                                         781

 

3.- El total de positivos de la prueba son 213 casos de los cuales 211 son verdaderos positivos y 2 falsos positivos o sea del total de exámenes positivos2 0,9% son falsos positivos.

 

4.- El valor predictivo positivo de la prueba

 

        211

es ________ = 0,991 ó 99,1%

        213

 

5.- El valor predictivo negativo de la prueba

 

            779

sería ________ = 0,997 ó 99,7%

            781

 

Como podemos evidenciar en ambos casos se utilizó el mismo método para el diagnóstico de cáncer endometrial, manteniendo estables la sensibilidad y especificidad; la única diferencia que existe está dada por la frecuencia a priori de la enfermedad que en el caso 1 es de 84 por 100.000 habitantes (prevalencia cáncer endometrial en población general menopáusica de país desarrollado) y en el caso 2 es de 21,9% (frecuencia cáncer endometrial en mujeres menopáusicas con metrorragia).

La conclusión de lo antes presentado es que al usar la biopsia endometrial por Pipelle en población con baja prevalencia de cáncer endometrial se observa un incremento notable en el porcentaje de falsos positivos y disminución marcada del valor predictivo positivo con leve aumento del valor predictivo negativo informando todo ello de una disminución marcada de la utilidad clínica de dicho procedimiento en la población general menopáusica.

La presencia de un falso positivo significa el error de culpar a un inocente5 y desde el punto de vista de bioética significa realizar un procedimiento sobre alguien que no tiene la indicación de ello y por tanto viola el principio de ética médica de no-maleficio. Sin lugar a dudas con el ejemplo antes descrito en el caso 1 (biopsia endometrial en población con baja prevalencia de enfermedad) podemos verificar que en 381 casos encontraremos la biopsia positiva y éstas deberán ir necesariamente a cirugía oncológica; no obstante esto sólo en 81 casos podría ser justificado dicho procedimiento en cambio en 300 casos sólo se produciría maleficencia. Para aquellos escépticos respecto a la situación antes planteada les sugiero la lectura de la bibliografía que acompaña a este artículo.

De lo antes expuesto queda claro que la utilidad clínica de un examen tiene valor siempre cuando se use sobre la población que tiene factores que hacen posible encontrar la enfermedad que se busca; salvo ciertos exámenes que por la naturaleza y prevalencia de la patología tienen indicación de ser usados en tamizaje sobre población general como por ejemplo el Papanicolaou5-6.

Surge entonces la pregunta ¿Se justifica el realizar un tamizaje a la población general con ecografía ginecológica transvaginal para todas aquellas mujeres menopáusica en la búsqueda de cáncer endometrial? La respuesta es difícil, considerando que hoy en Chile no existe información de incidencia de cáncer endometrial, existiendo sólo información de mortalidad. No es una enfermedad reportable aún.

Podemos también pensar por ejemplo en el caso del preparto en que monitorizamos a todas las mujeres que van a tener su parto ¿Cuánta será la frecuencia de falsos positivos? ¿Cuántas mujeres se realizaron una intervención obstétrica sin requerirla?

Una reflexión posible es que cada vez que estemos frente a un paciente con un examen positivo, debemos plantearnos cuál es la frecuencia de que este paciente en particular tenga dicha condición y si esta frecuencia es muy baja debemos considerar con alta probabilidad que estamos frente a un falso positivo. Por ejemplo, si tenemos una paciente sin factores de riesgo obstétricos que cursa un embarazo eutócico de 36 semanas, con altura uterina y estimación clínica de peso fetal aceptable a la edad gestacional, con ecografía obstétrica normal hace 2 semanas y en la que en nuestro control obstétrico actual realizamos una medición de índice de líquido amniótico (ILA) encontrando un valor de 55 mm. Podríamos sin lugar a dudas plantear la interrupción de dicho embarazo, pero no obstante dado que no hay ningún antecedente o factor de riesgo previo debemos considerar con alta probabilidad de que se trate de un falso positivo, ante lo cual la conducta debiera ser la observación y monitorización de dicho caso clínico. De lo contrario pudiéramos ocasionar daño sobre nuestra paciente, en el cual su posible origen estaría en la indicación de un ILA en una paciente que no tenía dicha indicación; en otras palabras como dicen muchos cirujanos “lo mejor es enemigo de lo bueno”

Bibliografía

1. MOLINERO L. Valoración de pruebas diagnósticas. Asociación de la sociedad española de hipertensión. Liga española para la lucha contra la hipertensión arterial, 2002. Disponible en: www.seh-lelha.org/pdiagnos.htm (Consultado el 31 de mayo de 2008).

2. SÁNCHEZ A, MARTÍNEZ M, PALMA S. Análisis de la concordancia. En: Martínez M, Sánchez A, Faulin J, eds. Bioestadística amigable. España: Editorial Díaz de Santos, 2006; 1821-51.

3. ALTMAN DG, BLAND JM. Diagnostic tests. 1: sensitivity and specificity. BMJ 1994; 308: 1552.

4. ALTMAN DG, BLAND JM. Diagnostic tests. 2: predictive values. BMJ 1994; 309: 102.

5. DAWSON B, TRAPP R. Métodos de medicina basada en evidencias y análisis de decisión. En Dawson B, Trapp R, eds. Bioestadística médica. México: Editorial El Manual Moderno, 2005; 275-301.

6. FLETCHER R, FLETCHER S. Diagnóstico. En: Fletcher R, Fletcher S, eds. Epidemiología Clínica. Barcelona: Editorial Wolters Kluwe Health España, S.A., Lippincott & Wilkins, 2004; 39-63.

7. AEDO S, RUBIO G. Indicadores de calidad clínica de la biopsia endometrial ambulatoria para el diagnóstico de patología endometrial maligna. Rev Obstet Ginecol Hosp Dr. Luis Tisné Brousse 2008, en prensa.

Dirección de contacto/correspondencia

Sócrates Aedo M. E mail: saedo@vtr.net

Lecturas 1721
Descargas 427

Imágenes

Tabla1.

Tabla2.

Tabla3.