Esta semana The American Statician ha publicado un número monográfico dedicado a la significancia estadística con p-value<0.05. El objetivo de este número es debatir si sigue teniendo sentido que un número arbitrario marque la diferencia entre: p<0.05 como "evidencia fuerte" y p>0.05 como "sin evidencia". La reconsideracion tendría implicaciones de largo alcance en cómo concebimos la ciencia.
#4:
Es que la gente que se dedica a investigar se cree que viendo un vídeo de YouTube se aprende estadística; y no es así.
Por ejemplo una cosa que he visto mucho, tienes chorrocientos datos de chorrocientas variables y haces p-value de todas las variables con respecto al grupo control. Pues claro que te van a salir el 5% de las cosas significativas sólo por pura coña. Sin embargo eso lo publican como si fuese palabra de dios; y normal que luego no sea posible reproducir el mismo experimento.
Otro fallo muy común, es que la inferencia tiene varias condiciones asociadas que tienen que cumplirse para que el p-value sea significativo. ¿Has comprobado normalidad en los datos?, ¿has comprobado a ver si las varianzas se parecen? ¿o le has dado al botón del SPSS de sacar p-values y ANOVAs a cascoporro y ya está?
Y otro mejor todavía, el de "de aquí hay que sacar algo sino vaya pérdida de tiempo". Te has gastado 500.000€ en hacer pruebas carísimas a muchos sujetos (¿has hecho bien el diseño del experimento?, ¿o has sacado la muestra como te ha salido del culo como siempre?) y resulta que al final no te sale nada significativo. Pues seguro que le das mil vueltas a los datos (mal) hasta que encuentres algo que publicar en lugar de publicar que no has encontrado nada.
Es que la gente que se dedica a investigar se cree que viendo un vídeo de YouTube se aprende estadística; y no es así.
Por ejemplo una cosa que he visto mucho, tienes chorrocientos datos de chorrocientas variables y haces p-value de todas las variables con respecto al grupo control. Pues claro que te van a salir el 5% de las cosas significativas sólo por pura coña. Sin embargo eso lo publican como si fuese palabra de dios; y normal que luego no sea posible reproducir el mismo experimento.
Otro fallo muy común, es que la inferencia tiene varias condiciones asociadas que tienen que cumplirse para que el p-value sea significativo. ¿Has comprobado normalidad en los datos?, ¿has comprobado a ver si las varianzas se parecen? ¿o le has dado al botón del SPSS de sacar p-values y ANOVAs a cascoporro y ya está?
Y otro mejor todavía, el de "de aquí hay que sacar algo sino vaya pérdida de tiempo". Te has gastado 500.000€ en hacer pruebas carísimas a muchos sujetos (¿has hecho bien el diseño del experimento?, ¿o has sacado la muestra como te ha salido del culo como siempre?) y resulta que al final no te sale nada significativo. Pues seguro que le das mil vueltas a los datos (mal) hasta que encuentres algo que publicar en lugar de publicar que no has encontrado nada.
#4 Bueno, aparte del ad hominem en forma de hombre de paja (hay gente que aprende estadística en Youtube... En fin, ergo?) hay algo de verdad en lo que dices (solo algo)
La parte que creo que obvias es que si bien tener un test de hipótesis con p bajo no es concluyente, la ausencia de él tampoco lo es para la conclusion inversa. Esto quiere decir que darle excesivo valor a obtener un p bajo como requisito para publicar un resultado es un error, pues no es necesario para que un estudio sea publicable. En vez pretender retorcer los números para sobrevender un claim (demostrado), es preferible rebajar la certidumbre (hay indicios, no parece confirmarse, etc..). Y es que un estudio que tiene sentido es publicable en si independientemente de los resultados. La mala ciencia está en concluir cosas que no se derivan de los resultados, y no todos los resultados tienen que ser positivos o concluyentes. Al menos esa es mi experiencia. Y ese es el espíritu detrás de la crítica a la que hace referencia el artículo. Pero bueno, para eso hay que leer y saber de lo que hablas (sin ser de oídas)
#4 la inferencia vale para cualquier tipo de datos. El ser normalizados o no, no significa que tu diseño está mal, el problema es usar test parametrizados para datos que no lo estan.
Muchas veces cualquier tipo de datos bien explicado con una buena estadística descriptiva es mucho mejor que meterse a hacer estadística inferencial, por el mero hecho de hacerla.
#4 "Por ejemplo una cosa que he visto mucho, tienes chorrocientos datos de chorrocientas variables y haces p-value de todas las variables con respecto al grupo control. Pues claro que te van a salir el 5% de las cosas significativas sólo por pura coña. Sin embargo eso lo publican como si fuese palabra de dios; y normal que luego no sea posible reproducir el mismo experimento."
Hombre, para evitar este tipo de cosas existen las llamadas correcciones post hoc, como Bonferroni. Pero muchos no lo aplican porque "entonces no sale". Lo que no parecen entender es que no es algo opcional. Yo me harto de decírselo, pero no suele servir de gran cosa.
Aquí un comunicado en nature firmado por 800 científicos cuestionando el criterio de corte de la significancia estadística y los problemas de replicabilidad que puede estar causando https://www.nature.com/articles/d41586-019-00857-9
#1 Mucho más interesante eso que enlazas que la noticia. Creo que es más exacto en la explicación.
Me sorprenden esos errores de novatos, aunque ya sabía que hay chorrocientos estudios mal hechos. Todavia recuerdo las aclaraciones en el libro sobre lo de "[...] no aceptar no es lo mismo que rechazar y blabla...".
Mientras sigan usando ANOVA con Tukey y T de Student para comprobar diferencias significativas en grupos cuya medida ni es ni puede ser normal, obviamente la significación no va a ser jamás replicable.
Además, las condiciones de la muestra sesgan todo el estudio, como es natural.
En biomedicina y con análisis multivariate ya es la hecatombe. La financiación competitiva induce que haya falsos positivos, y esa manera de usar la estadística es perfecta. Pero es mal uso de p-values está tan arraigado que la mayoría de revisores en biomedicina no aceptan que lo hacen mal. Precisamente estoy ahora peleándome con un revisor por usar intervalos de confianza en lugar de p-values. Y las críticas no es que sean nuevas, Gardner y Altman ya lo decían hace más de 30 años https://www.ncbi.nlm.nih.gov/pubmed/?term=3082422
Comentarios
Es que la gente que se dedica a investigar se cree que viendo un vídeo de YouTube se aprende estadística; y no es así.
Por ejemplo una cosa que he visto mucho, tienes chorrocientos datos de chorrocientas variables y haces p-value de todas las variables con respecto al grupo control. Pues claro que te van a salir el 5% de las cosas significativas sólo por pura coña. Sin embargo eso lo publican como si fuese palabra de dios; y normal que luego no sea posible reproducir el mismo experimento.
Otro fallo muy común, es que la inferencia tiene varias condiciones asociadas que tienen que cumplirse para que el p-value sea significativo. ¿Has comprobado normalidad en los datos?, ¿has comprobado a ver si las varianzas se parecen? ¿o le has dado al botón del SPSS de sacar p-values y ANOVAs a cascoporro y ya está?
Y otro mejor todavía, el de "de aquí hay que sacar algo sino vaya pérdida de tiempo". Te has gastado 500.000€ en hacer pruebas carísimas a muchos sujetos (¿has hecho bien el diseño del experimento?, ¿o has sacado la muestra como te ha salido del culo como siempre?) y resulta que al final no te sale nada significativo. Pues seguro que le das mil vueltas a los datos (mal) hasta que encuentres algo que publicar en lugar de publicar que no has encontrado nada.
#4 Bueno, aparte del ad hominem en forma de hombre de paja (hay gente que aprende estadística en Youtube... En fin, ergo?) hay algo de verdad en lo que dices (solo algo)
La parte que creo que obvias es que si bien tener un test de hipótesis con p bajo no es concluyente, la ausencia de él tampoco lo es para la conclusion inversa. Esto quiere decir que darle excesivo valor a obtener un p bajo como requisito para publicar un resultado es un error, pues no es necesario para que un estudio sea publicable. En vez pretender retorcer los números para sobrevender un claim (demostrado), es preferible rebajar la certidumbre (hay indicios, no parece confirmarse, etc..). Y es que un estudio que tiene sentido es publicable en si independientemente de los resultados. La mala ciencia está en concluir cosas que no se derivan de los resultados, y no todos los resultados tienen que ser positivos o concluyentes. Al menos esa es mi experiencia. Y ese es el espíritu detrás de la crítica a la que hace referencia el artículo. Pero bueno, para eso hay que leer y saber de lo que hablas (sin ser de oídas)
#5 siento el negativo, fué por error.
Te lo compenso en otros comentarios.
A ver cuándo ponen la posibilidad de corregir votos.
#4 la inferencia vale para cualquier tipo de datos. El ser normalizados o no, no significa que tu diseño está mal, el problema es usar test parametrizados para datos que no lo estan.
Muchas veces cualquier tipo de datos bien explicado con una buena estadística descriptiva es mucho mejor que meterse a hacer estadística inferencial, por el mero hecho de hacerla.
#4 "Por ejemplo una cosa que he visto mucho, tienes chorrocientos datos de chorrocientas variables y haces p-value de todas las variables con respecto al grupo control. Pues claro que te van a salir el 5% de las cosas significativas sólo por pura coña. Sin embargo eso lo publican como si fuese palabra de dios; y normal que luego no sea posible reproducir el mismo experimento."
Hombre, para evitar este tipo de cosas existen las llamadas correcciones post hoc, como Bonferroni. Pero muchos no lo aplican porque "entonces no sale". Lo que no parecen entender es que no es algo opcional. Yo me harto de decírselo, pero no suele servir de gran cosa.
Aquí un comunicado en nature firmado por 800 científicos cuestionando el criterio de corte de la significancia estadística y los problemas de replicabilidad que puede estar causando
https://www.nature.com/articles/d41586-019-00857-9
#1 Mucho más interesante eso que enlazas que la noticia. Creo que es más exacto en la explicación.
Me sorprenden esos errores de novatos, aunque ya sabía que hay chorrocientos estudios mal hechos. Todavia recuerdo las aclaraciones en el libro sobre lo de "[...] no aceptar no es lo mismo que rechazar y blabla...".
Un artículo algo largo pero creo que lo he entendido: la estadística no es algo exacto, sino estadística
Qué se puede esperar de una ciencia que nace de tirar una moneda al aire
#6 Y de meterle a alguien los pies en el fuego y la cabeza en la nevera.
#6 O de sacar calcetines de colores de un cajon.
Mientras sigan usando ANOVA con Tukey y T de Student para comprobar diferencias significativas en grupos cuya medida ni es ni puede ser normal, obviamente la significación no va a ser jamás replicable.
Además, las condiciones de la muestra sesgan todo el estudio, como es natural.
En biomedicina y con análisis multivariate ya es la hecatombe. La financiación competitiva induce que haya falsos positivos, y esa manera de usar la estadística es perfecta. Pero es mal uso de p-values está tan arraigado que la mayoría de revisores en biomedicina no aceptan que lo hacen mal. Precisamente estoy ahora peleándome con un revisor por usar intervalos de confianza en lugar de p-values. Y las críticas no es que sean nuevas, Gardner y Altman ya lo decían hace más de 30 años https://www.ncbi.nlm.nih.gov/pubmed/?term=3082422