AEF-PC

Comparaciones Múltiples y Errores Estadísticos
error 404

Comparaciones Múltiples y Errores Estadísticos

En esta entrada se abordarán algunos aspectos básicos sobre las comparaciones múltiples y su corrección estadística, con el objetivo de facilitar una mejor comprensión de estos conceptos en la lectura crítica y diseño de estudios de investigación. Se introducen conceptos básicos sobre comparaciones múltiples, familias, correcciones y errores.

Comparaciones Múltiples y Errores Estadísticos

Parte I: Teoría Estadística

Esta primera parte de la entrada estará dedicada a explicar varios conceptos teóricos sobre los errores tipo 1 y tipo 2, las comparaciones múltiples y el sentido de la realización de las correcciones para comparaciones múltiples. La segunda parte de la entrada se destinará a la resolución de preguntas concretas que publiqué hace unas semanas en twitter, con el objetivo de ayudar a entender mejor algunos conceptos.

Error Tipo 1

Cuando se toma una decisión en base a los resultados de una investigación, existe la posibilidad de equivocarse, cometiendo lo que se conocen como error tipo 1 y/o error tipo 2.

El error tipo 1 se comete cuando rechazamos la hipótesis nula del estudio, pero esta en verdad es cierta. Por su parte, el error tipo 2 hace referencia al suceso contrario, cuando no rechazamos la hipótesis nula, siendo esta falsa. En esta entrada nos centraremos en el error tipo 1.

Cuando se realiza un estudio de investigación, un aspecto que siempre quiere controlarse es la probabilidad que tenemos, en base a la metodología seguida para la elaboración del estudio, y los criterios de interpretación de los resultados de este, de cometer un error tipo 1. Algunos autores consideran “aceptable” asumir una probabilidad de cometer un error tipo 1 de 0.05.

Del anterior párrafo podemos concluir que, la probabilidad de cometer un error tipo 1, dependerá del diseño del estudio y de la interpretación que se haga de dichos resultados para decidir si aceptar o rechazar la hipótesis nula. El investigador puede controlar de manera íntegra que criterio de interpretación de los resultados utilizar para decidir si aceptar o rechazar la hipótesis nula, sin embargo, no puede controlar de manera íntegra todos los aspectos relacionados con el diseño del estudio. Por tanto, puede concluirse que el investigador nunca va a conocer el valor exacto de la probabilidad de cometer un error tipo 1. Es por ello que, aunque un investigador haga unas asunciones de la probabilidad de cometer un error tipo 1 que acepta asumible, eso no significa que la probabilidad real con su estudio de cometer un error tipo 1 sea la asumida por el mismo.

Comparaciones Múltiples

Cuando se realiza un estudio de investigación, supongamos un ensayo controlado aleatorizado, el investigador puede medir 1 o múltiples variables dependientes (ej. Dolor, fuerza, discapacidad, umbral de dolor a la presión…).

Si en un estudio se mide una única variable, la probabilidad que aceptamos de cometer un error tipo 1 para dicha variable es de 0.05 (relacionado con el famoso punto de corte de p < .05). Sin embargo, si medimos y analizamos múltiples variables, podría decirse que la probabilidad de obtener al menos un falso positivo en al menos una de ellas se ve incrementada (asumiendo que en todas ellas la hipótesis nula es cierta y otra serie de aspectos que no se abordarán de manera específica en este escrito). En la siguiente gráfica se muestra la probabilidad de obtener al menos un falso positivo (un p-valor menor de 0.05 cuando la hipótesis nula es cierta), en función del número de variables dependientes analizadas, calculada mediante la función de probabilidad de la distribución binomial.

Es decir, estamos incrementando la probabilidad de cometer un error tipo 1. Por ello, en estos casos se usan lo que se denominan “correcciones para comparaciones múltiples”, con el fin de controlar ese incremento de probabilidad de cometer un error tipo 1, para mantenerlo en el deseado de 0.05.

Pues lo cierto es, que todo lo comentado y concluido en el último párrafo, no es del todo acertado. Medir y analizar múltiples variables resultado no tiene porqué incrementar la probabilidad de cometer un error tipo 1 para con respecto la hipótesis de investigación planteada, y por tanto no tiene por qué implicar necesariamente el uso de correcciones para comparaciones múltiples. Podemos medir 20 variables resultado en un ECA sin realizar ninguna corrección, y que la probabilidad de cometer un error tipo 1 para la hipótesis del estudio no se vea alterada.

Familias y Tasas de Errores

En relación con las comparaciones múltiples, existe un término que es importante conocer, la familia. Una familia sería cualquier colección de inferencias para las cuales tenga sentido tener en cuenta alguna medida combinada de errores. Esto haría referencia también a la correspondiente colección de problemas inferenciales o la colección de parámetros sobre los cuales se van a hacer las inferencias. Podemos establecer dos tipos de familias, las finitas y las infinitas, para una mejor comprensión y simplificación de la entrada, nos centraremos solo en las familias finitas. También se asumirá de ahora en adelante, que las inferencias pertenecientes a una familia dada son mutuamente independientes.

En una situación con comparaciones múltiples donde tenemos una familia, podemos establecer tres tipos de tasa de error:

  • Familywise Error Rate (FWE): Sería la probabilidad de obtener al menos 1 falso positivo para esa familia.
  • Per-Family Error Rate (PFE): Haría referencia al número esperado de falsos positivos en esa familia.
  • Per-comparison Error Rate (PCE): Sería el número esperado de falsos positivos en esa familia entre el número de elementos (número de inferencias) que la componen. Es decir, sería la tasa de error para un contraste (inferencia) individual.

Imaginemos que tenemos un ensayo controlado aleatorizado en el que se compara la diferencia de efectividad de dos tratamientos en múltiples variables resultado, y que asumimos que todas esas inferencias (comparaciones) que vamos a realizar, constituyen una única familia. Si asumimos que la tasa de error para un contraste individual (a) es de 0.05, entonces, dependiendo del número de elementos que conformen la familia, N(F), el FWE y PFE serían:

N(F) PCE FWE PFE
1
0.05
0.05
0.05
5
0.05
0.23
0.25
10
0.05
0.40
0.50
20
0.05
0.64
1.00
50
0.05
0.92
2.50

El PFE es igual al PCE por el número de inferencias N(F), y el FWE es igual a:

1 – (1 – PCE)N(F)

La relación entre las tasas de errores seguiría este orden: PCE ≤ FWE ≤ PFE.

Cuando se realiza un estudio de investigación con múltiples inferencias, debemos decidir si considerar todas ellas o un subconjunto de ellas como una familia. En 1965, Cox nombraba dos motivos clave para considerar un conjunto de inferencias como una familia:

  • Para tener en cuenta el efecto de selección debido a las decisiones post hoc. Por ejemplo, si tenemos un estudio con finalidad exploratoria, las preguntas/líneas de interés a investigar en futuros estudios serán formuladas una vez analizados los datos de dicho estudio, según los resultados, eso serían decisiones post hoc.
  • Para asegurar la exactitud de un conjunto de inferencias para garantizar una decisión global correcta. Es decir, si la decisión que vamos a tomar con respecto a la aceptación/rechazo de la hipótesis nula, se hace en función de un conjunto de inferencias.

Por tanto, no siempre que tengamos múltiples inferencias en un estudio concreto debemos considerarlas como una familia, ni si quiera a un subconjunto de ellas, todo dependerá, esencialmente, de para que vamos a utilizar dichas inferencias. Además, el grado de corrección que hagamos dentro de cada familia, también es variable dependiendo de los objetivos del investigador, pudiendo aceptarse una probabilidad de cometer al menos un error tipo 1 (FWE) mayor de 0.05, sin que dicho estudio este mal diseñado.

Los procedimientos de corrección para comparaciones múltiples se pueden centrar en controlar el FWE o en controlar el PFE. Existen múltiples propuestas y es un tema extenso, que se escapa del objetivo de esta entrada.

Un Ejemplo Clásico de Establecimiento de Familias

Normalmente, cuando se realiza un ensayo controlado aleatorizado, se suele disponer de 2 o más grupos de tratamiento a comparar, a los cuales se sigue a lo largo del tiempo, midiendo las variables resultado en más de 2 momentos. Supongamos que tenemos un estudio en el que se comparan 2 grupos y se miden en 3 momentos (basal, a los 3 meses y a los 6 meses), y que solo tenemos una variable resultado, la intensidad de dolor medida con una escala visual analógica (EVA). Tendríamos por tanto las siguientes mediciones:

Grupo Basal 3 meses 6 meses
Experimental
Exp-B
Exp-3
Exp-6
Control
Cont-B
Cont-3
Cont-6

En total se realizan 6 mediciones, si cada comparación (diferencia de medias) involucra a dos mediciones, entonces tenemos un total posible de 15 combinaciones, es decir, 15 posibles comparaciones a realizar. Imaginemos que establecemos esas 15 comparaciones como si fuesen una familia única, y que queremos controlar el FWE, es decir, la probabilidad de que se cometa al menos un error tipo 1, para que se mantenga en un valor de 0.05, realizando una corrección para comparaciones múltiples comúnmente utilizada, la corrección de Bonferroni.

En ese caso, deberíamos aceptar como significativo para cada comparación, no un valor de p < .05, si no un valor de p < .0033. Este es un valor muy pequeño, que va a dificultar mucho “encontrar diferencias”, ¿es necesario un p-valor tan bajo?

A expensas de que haya 15 posibles comparaciones, puede que no nos interesen todas, por ejemplo, puede que no nos interese ver las diferencias entre Cont-6 y Exp-B, o entre Cont-3 y Exp-6. Aquí comienza el proceso en el que un investigador empieza a decidir que familias considerar para su estudio.

Un primer aspecto que nos podría interesar, es ver si los grupos son iguales al inicio del estudio, antes del tratamiento (en la medición basal). Esto es lo que se conoce como análisis de homogeneidad, que tiene una finalidad distinta al resto de comparaciones. Dado que en un análisis de homogeneidad lo que queremos es que no haya diferencias significativas entre los grupos (p > .05), nos interesa ponerlo complicado a esa hipótesis, ya que las consecuencias de un falso negativo (obtengo un p > .05 cuando en verdad “si hay diferencias entre los grupos”) en este caso, son menos deseables que las posibles consecuencias de un falso positivo (obtengo un p < .05 cuando en verdad “no hay diferencias entre los grupos”). Por tanto, decidimos tomar esta comparación como una única familia (Familia 1), sin realizar ninguna corrección para comparaciones múltiples en ella, ya que, si la hiciéramos, aumentaríamos la probabilidad de cometer un falso negativo (error tipo 2), que no nos interesa.

Por otro lado, también nos interesaría ver como evoluciona cada grupo en el tiempo, por separado, esto es lo que se conoce como comparaciones intra-grupo. Dado que lo que suceda en el grupo experimental, no tiene por qué influir ni ser interpretado en función de lo que suceda en el grupo control, ya que se van a interpretar por separado, podríamos establecer aquí dos familias más (Familia 2 y Familia 3). En cada familia habría 3 comparaciones:

  • Basal vs. 3 meses.
  • Basal vs. 6 meses.
  • 3 meses vs. 6 meses.

En este caso, dado que ya nos encontramos analizando los resultados post-tratamiento, la hipótesis a la que queremos ponérselo “más difícil” es a la hipótesis alternativa. En este caso sería menos deseable un falso positivo que un falso negativo, y por ello, decidimos realizar una corrección para comparaciones múltiples con Bonferroni. De modo que, aceptaremos como estadísticamente significativas aquellas comparaciones con una p < .016 (es decir, .05 entre 3 comparaciones).

Finalmente, también nos interesaría saber si hay diferencias en cómo han evolucionado los grupos a lo largo del tiempo, es decir, si hay diferencias entre los grupos en las mediciones tras el comienzo del tratamiento. Tendríamos por tanto dos comparaciones posibles, la diferencia entre los grupos a los 3 meses (Exp-3 vs. Cont-3) y a los 6 meses (Exp-6 vs. Cont-6), que constituirían la cuarta familia del estudio (Familia 4), con una corrección de Bonferroni que nos haría interpretar como significativo una p < .025.

*Nota: No se tienen en cuenta las comparaciones de Exp-3 vs. Cont-6, ni la de Cont-3 vs. Exp-6, ya que no tendría sentido comparar momentos diferentes de medición entre los grupos.

Por tanto, en este estudio tendríamos las siguientes familias:

Familia Finalidad Comparaciones Umbral Sig.
1
Análisis de homogeneidad
1
.05
2
Diferencias intra-grupo (experimental)
3
.016
3
Diferencias intra-grupo (control)
3
.016
4
Diferencias entre-grupos
2
.025

Como se puede apreciar, el establecimiento de las familias dentro de un mismo estudio es algo que debe realizarse teniendo en cuenta múltiples aspectos, según los objetivos que tenga el investigador para cada comparación, pudiendo existir comparaciones en las que no sea necesario, ni deseable, corregir el p-valor, y observándose también en dicho ejemplo la necesidad de establecer familias en función de los objetivos, en lugar de realizar correcciones para comparaciones múltiples en función de todas las posibles comparaciones presentes en nuestro estudio, que nos llevarían a cometer errores cruciales de interpretación de los resultados del mismo.

Parte II: Respondiendo Preguntas

Publiqué en Twitter una serie de preguntas relacionadas con distintos conceptos de las comparaciones múltiples y los errores tipo 1. A continuación facilito las que considero las respuestas correctas a cada pregunta con su consecuente justificación, con el objetivo de que se acaben de entender mejor algunos aspectos relacionados con este tema en cuestión.

  1. Si comparamos dos estudios, uno con una sola variable resultado, y otro con múltiples variables resultado. ¿Podemos afirmar directamente que hay diferencias en la probabilidad de cometer un error tipo 1 entre ambos estudios?

Respuesta: No.

Justificación: Hay varios motivos por los cuales la respuesta a esta pregunta tal cual está redactada es negativa. En primer lugar, la probabilidad de cometer un error tipo 1 dependerá de, por un lado, que criterios utiliza el investigador para decidir si aceptar o rechazar la hipótesis nula en función de los resultados, dentro de los cuales no solo está la significación estadística (p-valor), si no también por ejemplo el tamaño del efecto; así como también dependerá de otros factores como el diseño del estudio (enmascaramiento, fiabilidad de los procedimientos de medición, y otros). Hemos de recordar que factores como el enmascaramiento o la fiabilidad de un procedimiento de medición, no se reflejan en los p-valores obtenidos para, por ejemplo, una diferencia de medias entre dos grupos. Por todo ello, podemos tener un estudio con 3 variables resultado con el que se tenga menos probabilidad de cometerse un error tipo 1, que en uno con una sola variable resultado.

  1. Si en un estudio miden 20 variables distintas, ¿la probabilidad de obtener un falso positivo en una variable concreta de dichas 20 se ve incrementada, en comparación a si se hubiera medido solo dicha variable?

Respuesta: No.

Justificación: Las inferencias de un estudio son mutuamente independientes, por tanto, la probabilidad de obtener un falso positivo para esa variable no se ve influenciada por la presencia o no de otras variables, ni por los resultados de significación estadística obtenidos para ellas. Del mismo modo que si tiramos 100 veces una moneda al aire, la probabilidad de que salga cara es la misma en la tirada 1, que en la tirada 100, el número de tiradas no alterara la probabilidad individual de que salga cara en una tirada concreta.

  1. Si en un estudio se miden 20 variables resultado distintas, lo más acertado es realizar una corrección para comparaciones múltiples.

Respuesta: En desacuerdo.

Justificación: Aunque puede que en muchos casos sea más adecuado realizar una corrección para comparaciones múltiples, no se puede afirmar que esta opción sea siempre la más acertada. Puede ser que, por las características de la población, la asociación estudiada y el contexto, un investigador decida hacer un estudio con finalidad exploratoria con 20 inferencias sin ninguna corrección para comparaciones múltiples porque el incremento de probabilidad de cometer un error tipo 2 (cuando aceptamos la hipótesis nula siendo esta falsa), sea menos deseado que el incremento del error tipo 1, sin ser ello menos acertado. No puede establecerse que siempre lo más acertado será hacer una corrección para comparaciones múltiples, aunque en muchos casos pueda considerarse así.

  1. Si tenemos dos estudios, uno que miden 20 variables resultado, y otro que mide solo 1. Si no realizamos una corrección para comparaciones múltiples en el primero, se ve incrementada la probabilidad de cometer un error tipo 1 en comparación al segundo estudio.

Respuesta: En desacuerdo.

Justificación: En cierta medida esta pregunta presenta la misma justificación que la pregunta número 1. Por añadir un ejemplo concreto, si la hipótesis alternativa de mi estudio es que un tratamiento X es superior a otro Y en la mejoría de una variable W. Daría igual que añadiera 20 variables más aparte de la variable W y no corrigiera para comparaciones múltiples, porque he establecido cual es mi variable principal a priori y mis conclusiones de si acepto o no la hipótesis alternativa la realizaré teniendo en cuenta solo los resultados de dicha variable principal, a expensas de lo que obtenga en el resto de variables analizadas.

  1. La probabilidad de cometer un error tipo 1 en un estudio depende solo del número de contrastes realizados / variables resultado analizadas.

Respuesta: En desacuerdo.

Justificación: Ya se ha comentado que existen otros factores que influyen en la probabilidad de cometer un error tipo 1, y que incluso el número de contrastes realizado puede no tener influencia en dicha probabilidad.

  1. Si no realizamos una corrección para comparaciones múltiples en un estudio con más de una variable resultado estamos cometiendo un acto de “mala ciencia”.

Respuesta: En desacuerdo.

Justificación: Me remito a la respuesta facilitada en la pregunta 3.

  1. A nivel estadístico, es correcto afirmar que según incrementamos el número de variables resultado de un estudio incrementa directamente la probabilidad de cometer un error tipo 1.

Respuesta: En desacuerdo.

Justificación: De nuevo, en la probabilidad de cometer un error tipo 1 influyen múltiples factores que hacen que el incrementar el número de variables resultado, no tenga porque incrementar de manera directa la probabilidad de cometer un error tipo 1.

  1. En un estudio, es incorrecto asumir una probabilidad de cometer un error tipo 1 superior a 0.05.

Respuesta: En desacuerdo.

Justificación: Dependiendo de la finalidad del investigador y el campo/contexto en el que se realiza el estudio, puede ser totalmente acertado asumir una probabilidad de cometer un error tipo 1 superior a 0.05. No hay nada que nos diga que dicho punto de corte sea mejor o peor que uno superior al mismo. Ni si quiera Ronald A. Fisher en 1925, en su libro Statistical Methods for Research Workers, que fue una obra de las obras que propició el uso futuro uso del punto de corte de 0.05, proponía dicho punto de corte como el mejor, ni como el único a utilizar, reportando datos tabulados de estadísticos para p-valores distintos a 0.05, como 0.10. Si hubiera creído que 0.05 es el punto de corte óptimo y que no debería sobrepasarse, no habría aportado datos para p-valores de 0.10.

  1. Podemos realizar un ensayo controlado aleatorizado en el que midamos 50 variables resultado, sin realizar ninguna corrección para comparaciones múltiples, y que la probabilidad de cometer un error tipo 1 con respecto a la hipótesis del estudio no se vea alterada.

Respuesta: De acuerdo.

Justificación: Me remito a la respuesta facilitada en la pregunta 4.

  1. Ante dos estudios que incluyen ambos 20 variables resultado, tiene mejor metodología el que utiliza una corrección para comparaciones múltiples más conservadora.

Respuesta: En desacuerdo.

Justificación: Nuevamente, está decisión dependerá de la finalidad que tenga el investigador con respecto al estudio en si mismo y del contexto de este, en algunos casos puede ser mejor utilizar una corrección menos conservadora, con el objetivo de no incrementar demasiado la probabilidad de cometer un error tipo 2.

  1. La decisión de realizar una corrección para comparaciones múltiples depende más de los objetivos del investigador que del número de contrastes realizados / variables resultado medidas.

Respuesta: De acuerdo.

Justificación: Tengamos 5 o 10 contrastes a realizar dentro de un mismo estudio, la decisión de realizar una corrección para comparaciones múltiples dependerá de la finalidad con que utilizaremos dichos contrastes, a expensas del número de estos, que podría influir en la cantidad de corrección realizada, no en su realización en sí misma.

  1. En un estudio analizan 20 variables, de las cuales 19 tienen un p-valor asociado > .05 y la variable restante un p-valor asociado < .05. ¿Podemos afirmar que se ha visto incrementada la probabilidad de cometer un error tipo 1 para dicha variable en ese estudio?

Respuesta: No.

Justificación: Me remito a la respuesta facilitada en la pregunta 2 y 13.

  1. Si en un estudio evaluamos 15 variables resultado y en todas ellas obtenemos un p-valor asociado > .05, entonces es más probable que la próxima variable que analicemos tenga un p-valor asociado < .05.

Respuesta: En desacuerdo.

Justificación: Me remito a la respuesta facilitada en la pregunta 2. Añadiré otro ejemplo más. Si estamos jugando a la ruleta, apostando por color, y ha salido 300 veces el color negro, la próxima vez que apostemos, la probabilidad de que salga negro o rojo será la misma que si no hubiera habido esa racha de 300 negros. Esto es lo que se conoce como “falacia de apostador o falacia de Monte Carlo”.

Conclusión

Las comparaciones múltiples y los métodos de corrección son un tema complejo. A día de hoy no tenemos manera de asegurarnos una probabilidad de cometer un error tipo 1 para un determinado estudio, ya que en dicha probabilidad influyen factores no controlables por el investigador.

Aunque en muchas situaciones puede ser aconsejable realizar una corrección para comparaciones múltiples, no debemos pensar sistemáticamente que un estudio con más de 1 variable resultado es engañoso o que incrementa la probabilidad de obtener falsos positivos con respecto a la hipótesis de investigación. Así mismo, tampoco debe pensarse sistemáticamente que debe realizarse una corrección para comparaciones múltiples, en cualquier estudio donde se midan múltiples variables / se realicen múltiples contrastes.

Todo ello, podría llevarnos a cometer errores cruciales de interpretación del diseño y los resultados de un estudio de investigación.

Sobre el autor...

ruben4121

Rubén Fernández Matías

Fisioterapeuta, MSc.
Graduado en Fisioterapia. MSc Universidad de Alcalá. Socio ARP-sapc y APETP.

Deja un comentario