Este artículo fue inicialmente publicado en Twitter en forma de hilo. Se agradece difusión. https://twitter.com/Martinez__Rafa/status/1259472794817048577?s=20
Las manipulaciones en RRSS están a la orden del día, y la difusión de bulos crece sin control. Tal es el nivel de desinformación que incluso supuestos "expertos" contribuyen a generar y expandir inexactitudes deliberadamente. Hoy toca hablar de Juan Manuel López Zafra, profesor de Estadística e Investigación Operativa, autodenominado "experto" en Big Data, doctor en Ciencias Empresariales e influencer del liberalismo económico en Twitter.
Juan Manuel, durante las últimas semanas, ha presumido de haber calculado con un método propio la cifra aproximada de muertes por Coronavirus en España. Ya el 9 de mayo hablaba de esa cifra.
De una persona con el currículum mencionado anteriormente esperaríamos un análisis riguroso, ¿no? Pues bien, lo que verán a continuación les sorprenderá...
Juan Manuel afirma que la cifra de muertos a causa del COVID es mucho más alta que la oficial proporcionada por el Ministerio de Sanidad, e incluso bastante superior a los excesos de mortalidad recogidos en los informes MoMo. ¿Cómo ha llegado a esa cifra exacta? Veamos.
Juanma parte de una noticia de Europa Press donde se recoge que Mapfre ha prestado 3100 servicios de decesos por COVID. Adicionalmente, Juanma añade que Mapfre en España tiene un 13.7% de cuota, y que el 47% de la población española está cubierta por un seguro de decesos.
Desconozco la veracidad de esos datos, pero démoslos por buenos, pues son los que Juan Manuel utiliza para su análisis. Bien, la pregunta es, ¿cómo con esos tres datos tan sencillos Juanma es capaz de estimar con precisión el total de decesos por COVID?
El método científico de Juanma es... una regla de tres. Si Mapfre con un 13.7% de cuota ha notificado 3100 decesos, eso implica que todas las aseguradoras habrán notificado 3100x100/14=22627 decesos. Si las aseguradoras cubren al 47% de la población, el total será 22627/47x100.
Esa operación nos entrega un resultado de 48144, que es la cifra que Juanma utiliza para decir que en España hay aproximadamente 50000 decesos por #COVID19. La pregunta inmediata es, ¿cómo de rigurosa es esa cifra y el método usado?
Cualquier persona con mínimas nociones de estadística o matemáticas se habrá dado cuenta que este método hace aguas por todas partes. Una regla de tres a fin de cuentas no deja de ser una interpolación lineal, por tanto se corre el riesgo de que los resultados estén muy sesgados.
Utilicemos un ejemplo muy sencillo. Imaginemos que en España un 5% de la población juega a la petanca. Imaginemos que entre los jugadores de petanca hay 5000 muertos por COVID. Según el método de Juanma, si entre el 5% de la población hay 5000 decesos en el 100% de la población habrá 5000x20=100000 decesos. Es evidente que este dato sería erróneo. La población que juega a la petanca suele ser de avanzada edad, por tanto la letalidad asociada al COVID será también mayor en ese grupo.
Este error es un claro ejemplo de "sesgo de selección". Como soy nefasto explicando conceptos, dejo aquí este simpático vídeo donde se explica de una manera muy sencilla (a partir del minuto 4:30 aproximadamente, por Julio Basulto).
Volviendo al método de Juanma, él parte de los casos de mortalidad notificados por Mapfre por COVID para a continuación extrapolarlos a toda la población. Se intuye el sesgo de selección, ¿no?
Es intuitivo pensar que la población que tiene un seguro de vida es de media más mayor que la que no lo tiene. De hecho, ¿cuánta gente joven conocéis que tenga seguro de vida? A falta de datos, es razonable pensar que extrapolar a toda la población ese dato es bastante engañoso. Varias personas en los comentarios han puntualizado este mismo razonamiento a Juanma, a lo que él responde (sin dar demasiada información) que "ese sesgo está recogido en la cifra de Mapfre". ¿Cuál de las dos cifras de Mapfre?
Parece evidente que no en la del número de decesos notificados por la compañía. No tiene ningún sentido normalizar un número de "muertes notificadas". Por tanto el único dato que nos queda es la "cuota de mercado".
Me parecería muy extraño que una cuota de mercado esté normalizada, de todos modos demos el beneficio de la duda y esperemos que @jmlopezzafra ponga algo más de luz en esto. En cualquier caso, aunque la cuota de mercado se encuentre normalizada, el cálculo seguiría siendo erróneo. ¿Por qué? Es algo más complicado de explicar en un tuit, y dependería de como se haya incluído el sesgo (si ha sido así) en la cifra que proporciona Juan Manuel. Si da más detalles de cómo se ha llegado a esa cifra estaré encantado de demostrarlo matemáticamente.
En conclusión, esta información, que se ha demostrado del todo errónea, va ya por más de 300 retuits (entre ellos de cuentas de audiencias amplias como Luis del Pino), por lo que es de pensar que decenas de miles de personas lo han leído, muchas de ellas dándolo por válido. Y es que Juan Manuel López Zafra, el autor del "cálculo", es doctor en CCEE, profesor de Estadística y científico de datos. Por tanto, es de suponer que mucha gente que le sigue acepte lo que escribe por una suerte de falacia de autoridad.
Conclusión: no os creáis todo lo que leéis, contrastad fuentes y, sobre todo, para asuntos relacionados con el COVID, buscad la opinión de expertos en epidemiología y sanitarios, no la de economistas y licenciados en empresariales.
Plot twist: Juan Manuel ha leído el hilo y, como es evidente, no ha podido refutar ni una coma. Aún así ha dejado dos respuestas que servirán de cierre definitivo para este hilo. Obviemos los malos modales en la respuesta (cosas de la educación privada, imagino). Veamos:
Juan Manuel invita a leer el informe de Mapfre. Honestamente me encantaría, pero no he dado con él, y Juan Manuel no parece querer compartirlo. Para finalizar, menciona en repetidas ocasiones que el "factor de elevación" justifica a su burda regla de tres. En cualquier caso, ya que Juan Manuel pone encima de la mesa el factor de elevación, hablemos del factor de elevación. ¿Qué es y para que se usa? Intentaré explicarlo.
Imaginemos que hacemos una encuesta por teléfono para preguntar a la gente cualquier cosa. Por ejemplo, cuál es su color favorito y cuál es su edad. Imaginemos que hacemos muchas llamadas hasta alcanzar una muestra que consideremos representativa.
Bien. Podríamos ordenar los datos y saber a qué % de la gente que hemos encuestado le gusta un color u otro. Como nuestra muestra es muy grande, un análisis ingenuo sería decir: "el color favorito de un 20% de los españoles es el azul". ¿Por qué esta afirmación sería ingenua? Porque estaríamos asumiendo que nuestra muestra es completamente similar al conjunto de los españoles. Es decir, que el % de gente entre 18-25 años (por ejemplo) en nuestra muestra (entre la gente que hemos llamado) es el mismo que el % de gente entre 18-25 años en el censo.
¿Es esto correcto? Probablemente no. Si hacemos llamadas telefónicas, probablemente habrá más respuesta de gente mayor (porque suelen pasar más tiempo en casa) y menos repuesta de gente en edad de trabajar (por el motivo contrario) y de gente muy joven (pues no van a responder). Por tanto, el resultado de nuestra encuesta no es directamente extrapolable a toda la población. Es decir, no se puede hacer una regla de tres para asumir cual es el color favorito de los españoles (lo siento @jmlopezzafra, tu herramienta favorita no sirve).
Ahora bien, ¿hay alguna manera de corregir este error? Bueno, en nuestra encuesta hemos preguntado el color junto con la edad, ¿no? Entonces sabemos las franjas de edad de nuestra muestra. También sabemos las franjas de edad de la población española, consultando el censo. Se va intuyendo la solución, ¿no? Sabemos el "peso" que cada franja de edad tiene en nuestra muestra y en el total de los españoles. Es decir, podemos cuantificar si en nuestra muestra hay más o menos gente joven que la que en realidad hay en España, o si hay más o menos ancianos
Es decir, si en nuestra encuesta hay un % más bajo de gente joven que la que realmente hay en España, la opinión de esa gente joven está "infrarrepresentada". Y al contrario, si nuestra muestra incluye un % mayor de gente anciana, su opinión estará "sobrerrepresentada".
Bien, entonces parece obvio que los datos de nuestra encuesta hay que corregirlos para que cada franja de edad tenga el mismo "peso" y la misma representación que la que hay en el conjunto de la sociedad. ¿Cómo se hace esto? Efectivamente, con un factor de elevación.
Aquí tenéis dos links por si queréis algo más de información de como se hacen estos cálculos. Concretamente estos dos ejemplos son de Encuestas de Población Activa, donde el uso de factores de elevación es muy habitual.
josamaga.webs.ull.es/jsmg-epa.pdf
Ahora bien. ¿Justifica esto los cálculos de Juan Manuel? Evidentemente no. En primer lugar, él no utiliza en ningún momento factores de elevación. Repasad el hilo original, al que encuentre una sola mención a estos factores en sus cálculos le invito a una cena. En segundo lugar, si utilizara factores de elevación tendría que aplicarlos a la cifra de muertos por Covid proporcionada por Mapfre, para así poder extrapolarla al total de España y ser más riguroso. Cosa que no hace. Hace una regla de tres, que es totalmente lineal.
La última baza que le queda al doctor Zafra es argüir que el 13.7% de cuota de mercado ya incluye ese factor de elevación. ¿Es esto posible? Respuesta corta: no.
Con esto se cierra, espero que ya de forma definitiva, este hilo. No espero una respuesta del ínclito Juan Manuel, no creo que haya excusa que pueda usar para seguir justificando su bulo. Solo queda difundir la verdad, así que si has llegado hasta aquí, se aprecia difusión.
Pequeña actualización. Como bien indica @juvenal_tw, en este artículo de @65ymuchomas se encuentra el dato que el sr Zafra utiliza en su análisis, la cuota de mercado de Mapfre (13,81%).
La fuente original es el estudio "primas devengadas de seguro directo 2018", por @Inese_seguros data. El estudio no es open access y su precio es elevado, por tanto no lo podemos verificar.
Sin embargo, por lo que se deduce del artículo de @65ymuchomas, la cuota de mercado no tiene ningún tipo de corrección, como era obvio. Es más, la cuota de cada aseguradora está calculada sobre el total del volumen de primas, no respecto al total del volumen de clientes.
Es decir, la simple regla de tres de Juan Manuel tiene aún menos sentido ya que está asumiendo que la cuota calculada respecto al volumen de primas es igual a la que resultaría si se calculara respecto al volumen de clientes, lo que no tiene por qué ser verdad. Otro error más.
Ahora sí, a falta de respuesta de Juan Manuel, damos por cerrado el artículo. FIN.
Y ante la falta de argumentos... una pena.
Comentarios
Esto lo leí hace mucho, no sé si en el hilo o dónde...
https://www.elconfidencial.com/espana/2020-06-03/muertes-coronavirus-espana-exceso-mortalidad-ine_2622395/
al final no iba tan desencaminado
#1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16
#44 Si pones un reloj que no funciona en la pared y preguntas cada hora, que hora es? Alguna vez acertaras, como el zodiaco.
#47 el INE 48mil muertos tras recibir los datos de los registros, Zafra 50mil a pelo....
https://www.elconfidencial.com/espana/2020-06-03/muertes-coronavirus-espana-exceso-mortalidad-ine_2622395/
al final no iba tan desencaminado
#1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17
#45 go to #45
#18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39
#0 Joder, lo has hecho con todos tus envíos... cuando no tiene éxito el enlace a tu twitter lo pasas a artículo de MNM.
martinez__rafa
martinez__rafa
Nunca había visto un spammer tan contumaz.
#8 Veo que intentas censurar al usuario con la excusa de "spam" . Se os ve a la legua macho. Llevas tu mismo spameando que el otro spamea en este mismo articulo en varios comentarios. A mi y a muchos otros no nos ha molestado, solo a los sectarios que no soportan un articulo contra uno de los suyos y tienen que ponerse a mirar el historial de alguien, a ver si con el abuso de la "ley" logran lo que no pueden con el dialogo.
¿Te crees que nos chupamos el dedo? Tiene solo 3 artículos. De verdad...
#18 Ahórrate tus acusaciones y consejos "libertarios"... para vidente no sirves.
#19 Aquí tenemos unas normas y #0 ha hecho un abuso evidente... Se crea un usuario exclusivamente para promocionar SUS tweets... si no triunfan los sube como artículo... ¿esto como se llama?
#21 Ya te he respondido educadamente, pero veo que continúas insistiendo así que lo repito.
He publicado el hilo como enlace y como artículo A LA VEZ, con el esfuerzo que ello conlleva, para dar más facilidades a quien prefiera formato Twitter o formato artículo. No escribo el artículo porque el enlace no tenga "éxito" (no sé a qué te refieres), lo hago A LA VEZ.
#8 Hombre, llamar spammer a un tío con TRES artículos...
#0 Interesante artículo, pero estás cayendo en técnicas de spam, y te pueden penalizar por ello.
Como parece que eres nuevo, y me "tira" la gente que desmonta la mala prensa, déjame darte un consejillo.
Hazlo al revés de como lo estás haciendo. Es decir, usa si quieres la sección de Artículos de Menéame para publicar tus historias (un poco a modo de blog personal) y luego enlaza el artículo en tu Twitter. Así, además, te ahorras la mitad del trabajo, y mejoras la lectura ya que en Twitter es horroroso leer hilos largos con tanta información.
Un saludo.
#11 Hola. Muchas gracias, la verdad es que aún ando trasteando con la web, se agradece el consejo.
Esta sección es la de artículos, cierto? Entonces publicar los artículos aquí y enlazarlos directamente no sería considerado spam? Gracias por la ayuda!
#28 Hay una web que te hace el trabajo de poner un hilo de twitter más legible, te paso un ejemplo con uno de tus hilos:
https://threadreaderapp.com/thread/1259472794817048577.html
https://threadreaderapp.com/
#28 Exacto. Puedes combinar ambas cosas y hacer un envío "todo en uno" si no te importa el trabajo extra: el artículo completo más el enlace al tuit donde lo publicas, siempre que tú seas el autor.
También puedes publicar en tu Twitter el enlace al artículo en Menéame, para quien prefiera otra método de lectura del artículo.
#37 Gracias!
Cuando hago la estimación de ventas (que es mucho más sencillo) me cuesta un mes de trabajo y necesito usar tantos datos que no me sirven ningún ordenar para poder procesarlos.
Y este tipo hace la estimación de muertes en papel? Por el amor De Dios.
#0 buen aporte.
#5 Con el agravante de ser profesor de Universidad en la materia y "experto". Cero rigor.
Vozpopuli es un cáncer.
#0 Envías como meneo a con enlace a twitter... Articulista en vozpópuli y "experto" en Big Data cazado falseando datos. Desenmascarando a López Zafra
Articulista en vozpópuli y "experto" en ...
twitter.comReduplicada además #2
Estamos pervirtiendo el sentido se los artículos de MNM como texto ORIGINAL e inédito.
Además spammer: martinez__rafa
#6 SPAM por supuesto.
#6 Hola, soy nuevo aquí y quizá desconozco algunas de las reglas internas de la web, disculpas por ello.
He publicado en dos formatos (enlace y artículo) no por duplicar, sino porque entiendo que para algunas personas quizá es más cómodo no salir de la Web y leerlo directamente aquí. Para mí es más cómodo pegar el enlace, adaptarlo al formato artículo es bastante time consuming.
Respecto a lo del texto original, tal como leí en las condiciones de la Web no hay problema con tal de que las contribuciones no queden reducidas únicamente a autopublicidad, es decir, si también comparto noticias de otras fuentes no hay problemas, siempre según los términos y condiciones de Menéame.
No entiendo lo de "como no tiene éxito". Hice los dos formatos a la vez, me importa bien poco el "éxito", solo quiero dar a conocer una mala práctica.
Un saludo.
#23 El artículo está bien... ya estaba publicado en otro artículo en portada: Desmontando las cifras de muertos por covid-19 de un experto en Big Data
El autobombo está permitido de forma ocasional. Tú no has subido nada que no sean tus tweets... es spam.
Cuando digo tener éxito me refiero a llegar a portada. No puedes enviar lo mismo en articulos que en historias... es duplicada.
#2 Es que yo no se cómo éste artículo puede interesarle a alguien, vozpopuli miente. Siempre. Incluso han hecho de su falta de fuentes su nombre.
Dejando aparte el fondo estadístico de la cuestión, nadie que lleva razón y que puede demostrarlo (y menos aún siendo doctor que arrastra un CV considerable) recurriría al insulto y el berreo tabernario para discutir una opinión. Infame la respuesta del tal López Zafra, un gañán que se desacredita con su forma de expresarse.
No tengo ningún problema en que Juan Manuel extrapole usando un par de datos, se trata de realizar una estimación.
Lo que realmente falta, y es de primer curso de cualquier carrera de ciencias, es el error. Si en lugar de 50000 muertos, dice que son 50000 +- 10000 habría demostrado algo más de profesionalidad.
En mi caso, si el una práctica de laboratorio dabas como resultado una medida sin márgen de error la tenías automáticamente suspendida.
La soberbia y agresividad (seguida del posterior silenciamiento) en las respuestas del "experto" en cuestión dicen mucho de sus ideas de cómo funciona la ciencia. Posiblemente esté poco acostumbrado a que le lleven la contraria con argumentos o sin ellos, y ello le causa ese tipo de reacción. Un doctor, de la materia que sea, jamás debería actuar así.
Aunque yo lo atribuiría también a una necesidad de mantener una reputación, que siempre viene bien de cara a futuros puestos de trabajo (o incluso cargos) y/o el mantenimiento de los actuales.
Da el perfil para futuro político. Con solo esos tweets me puedo imaginar hasta a qué partidos echaría la caña...
¡Brillante!
O sea, que el tal Juanma López Zafra ha aplicado la famosa técnica matematicoestadística conocida como "cuenta-de-la-vieja"
Es asunto de las personas con seguro de decesos ya se comentó aquí hace tiempo.
El exceso de mortalidad no es muerte Covid-19 al 100%. La sanidad se vio muy y muy afectada. Los datos oficiales son muy cercanos a los correctos.
Lástima de Catalunya que estuvo contando muertos de más y al final ha tenudo que corregir dando una impresión pésima.
Zas! en toda la boca. Buen trabajo sí señor
Imagínate que en vez de en twitter tienes a este López Zafra de profesor.
Le coges el gazapo. Te lo tienes que comer con patatas, decir sí bwuana si quieres aprobar y además no aprendes nada de nada. Vamos, que en la universidad aprendes a tragar sapos, más que contenidos académicos de provecho. Libertad de cátedra le llaman.
No son datos falsos, son datos de fuentes a las que ha tenido acceso Voxpopuli.
#40 Puedes confiar (quizá) en que la tecnología hace lo que dice que hace. Pero el blockchain parece bastante innecesario.
#41 blockchain es una base de datos inhackeable. Te parece innecesario? Imagina el registro de la propiedad o la contabilidad del país en blockchain. Blockchain acabaría con intermediarios y sus chanchullos. Ya lo tenemos, solo falta usarlo.
#42 No necesitas un sistema distribuido ni para registro de la propiedad ni para contabilidad. Si eso, publicas cada cambio en el registro de la propiedad, o cada número del BOE, firmado, junto con un hash de la publicación anterior. Eso es tan "inhackeable" como puede serlo algo, pero no es distribuido ni tiene nada de especial, así que no sé si lo llamarías blockchain.
#43 propones algo parecido. No veo xk no usar blockchain. Y que sea distribuido evita apropiación del servidor. Más seguro imposible. Lo distribuido desplazará a lo centralizado. Y eso es más seguro para todos. Una organización distribuida no es jerárquica.
#49 ¿Más seguro de qué? Blockchain es complejidad innecesaria, que expondría el sistema a ataques que no tendrían sentido frente a algo más centralizado. ¿Y quiénes serían los nodos?
#50 igualito a Bitcoin. Hay cientos de nodos colaborando. Porque centralizado si puede ser distribuido? Que nadie pueda manipular los datos, ese es el objetivo. Blockchain cambiará el mundo, es el primer notario mundial y confiable . Porque es tan difícil de ver? Blockchain hará lo que los humanos no hemos podido hacer.
#51 De momento, solo ha cambiado el mundo de los especuladores.
#52 Bitcoin se estudiará en las clases de historia. Me pregunto qué innovación te sorprende a ti.
Joder el López Zafra. Menudo iluminao !!!
Los experto en Big Data no son necesariamente buenos sacando conclusiones o analizando los datos. Al menos ese no es su trabajo.
Blockchain es la solución a los bulos. Las noticias se etiquetan y se verifican. Y la trazabilidad es confiable. Tambien es la solución a los chanchullos e intermediarios y vividores en general. A que esperamos? Gobierno low cost basado en código libre y blockchain
#13 Pues yo veo muchos "vividores en general" que se dedican a promocionar basura usando la palabra mágica "blockchain".
#15 hay que diferenciar la paja del trigo. Es blockchain o no? Si es blockchain es seguro y si no es un cuento. Es lo que tiene la tecnología libre. Se puede verificar. Porque confiar en humanos si tenemos tecnología confiable? Salut
Pero si al final no has demostrado lo que pones en el título.
Vaya clickbait...
#9 Hola. La cifra final a la que llega es un claro de ejemplo de fabricación de datos, ya que parte de la hipótesis final y crea el método (muy chapucero, indigno para un doctor usar reglas de tres) para llegar a ese resultado. Esto es un ejemplo perfecto de manipulación y falseamiento de datos.
Sin comentar los errores metodologicos, puede que su estimacion no este tan lejos de la realidad: https://www.larazon.es/sociedad/20200601/aq7yfqhey5g3njcfm6j33j43hq.html
dicen que reloj roto da bien la hora dos veces al dia...
#36 Bueno, que la cifra real está entre 40.000 y 50.000 parece evidente teniendo en cuenta los datos disponibles. El problema es que Juan Manuel parte de la cifra a la que quiere llegar y a partir de ahí fabrica un método para justificarla. Eso es muy grave, porque disfraza de ciencia lo que no es más que una manipulación.
#36 estimar 50000 muertos a mediados de Mayo no tiene mucho mérito, los datos existentes a esa fecha eran de 27000 fallecidos y MoMo daba un 40% más de fallecidos. Yo mismo estimé un mínimo de 30000 muertod, pero la diferencia es que lo hice el 22 de Marzo.
En realidad se trata de Juanma Lacambra
#1