Publicado hace 15 años por --87131-- a francisthemulenews.wordpress.com

[c&p] Acabo de ver en Menéame una noticia curiosa ( MM04: un micrometeorito hallado en la Antártida revoluciona a la astronomía (ING)
Hace 15 años | Por jm22381 a redorbit.com
Publicado hace 15 años por jm22381
a redorbit.com

Matthieu Gounelle y científicos de todo el mundo están perplejos ante un misterioso micrometeorito d [...]

) donde se afirma “MM04 es una roca acondrita anterior al sistema solar de tan sólo 150 micrones.” Me ha molestado la palabra “micrones” por “micras” y me ha molestado lo que pone al final del artículo meneado “Gounelle’s study of MM04 is published in Proceedings of the National Academy of Sciences.” (*)

Comentarios

Abeel

#5 cita tu fuente.

oblivision

me abuuuuuuuuuuuurroooo

trestigres

Tengo la siguiente cita para un trabajo:

Gounelle M, Russell SS (2005) On early Solar System chronology: Implications of an heterogeneous distribution of extinct short-lived radionuclides. Geochim Cosmochim Acta 69:3129–3144.

Y al citarla la copio mal:

Gounelle M, Russell SS (2005) On early Solar System chronology: Implications of an heterogeneous distribution of extinct short-lived radionuclides. Geochim Cosmochim Acta 68:3129–3144.

¿Cual es la probabilidad de que otro autor cometa exactamente el mismo error (68 por 69)? Es baja, ¿no?

trestigres

#10 El error fue un MM04 por un MM40 y a raíz de ello viene toda la discusión sobre "citar a ciegas"

Kartoffel

#24 Da igual que sea a mano, a ordenador o en pergamino: de donde copias la cita es de otro artículo (no elaboras toda la cita de nuevo), y por eso copias la errata (o no, si no es el caso).

> Por lo tanto, si he leído un artículo lo tengo al lado, y es mucho más complicado que me equivoque al citarlo.

Como ya he comentado, la probabilidad de cometer una errata es irrelevante, y el ratio de copiadores no depende de la probabilidad de cometer un error al citar.

Kartoffel

En un ejemplo numérico: supongamos que tenemos 1000 autores, cada uno de los cuales hace una cita. Supongamos que el ratio de copiadores sea del 25%, con lo cual habrá 750 autores lectores y 250 copiadores. Y supongamos que de esos 750 lectores, 150 ponen la cita mal. Por lo tanto, entre las copias habrá más o menos 50 erratas. ¿Qué resultados obtendríamos?

- El autor del artículo diría: tenemos 200 erratas en total (T = 200) y 150 son diferentes (D = 150). Así que si calculamos el ratio de lectores con D/T, obtendremos R = 3 (tres lectores por cada copiador, lo que supone que, efectivamente, el 75% leen y el 25% copian)
- Tú dirías: como hay 50 copias diferentes, entonces los lectores serán, según la fórmula de #11 (1000 - 200 + 150)/1000 = 0.95 = 95%.

¿Queda claro?

Kartoffel

Hay un errata (jijiji) en #25, R = D/T = 150/200 = 0.75 (75% de lectores), que me lié con el 50 y el 150

Kartoffel

#22 > Obviamente si leo un artículo es menos probable que cometa un error al citarlo

La probabilidad de cometer una errata es absolutamente irrelevante de cara a la demostración que hace (y no deduce nada de este hecho). Lo que sí es relevante es si existe alguna correlación entre el hecho de que una cita contenga erratas y el hecho de que alguien la copie. Evidentemente, no la hay, ya que si copio la lista de citas voy a copiar las erratas si las hay y no las voy a copiar si no las hay. Obvio, ¿no?

> Por lo tanto, de entre los que citan correctamente habrá muchos más que han leído el artículo que los que no lo han leído.

No necesariamente: el hecho de que la cita sea correcta no disminuye la probabilidad de que la hayas copiado. De igual forma, es posible cometer erratas aunque hayas leído el artículo.

> Deduce que de los que comenten errores solamente el 20% ha leído el artículo. Hasta ahí no tengo problema alguno. ¡Pero lo aplica al conjunto de TODOS los citadores! En tu lenguaje, aplica el razonamiento sobre los hombres a las piedras.

Estás mezclando las cosas. Una cosa son los principios a priori que aplica y otra cosa las conclusiones que obtenga. Si es extrapolable, depende de si hay más copiadores entre los que copian erratas que entre los que copian citas impecables. Y no los hay, quitando el factor del azar.

> Y como he dicho antes, creo que el conjunto de los citadores con error no es representativo, por lo que no puedes extrapolar el resultado.

Sí es representativo, ya que no hay ninguna razón por la que las citas con erratas sean más atractivas para copiar que las citas sin erratas. Relee el ejemplo de #15

Kartoffel

#20 En tu ejemplo ya has puesto un elemento que hace que la muestra no sea representativa. No sólo has seleccionado la muestra "coger a los neozelandeses en España", además has introducido "hacer que a los neozelandeses en España les caiga bien Zapatero", cosa que no ocurre en este caso. ¿O es que hay alguna razón para pensar que, cuando las listas de citas tienen erratas, los copiones las copypastean más?

> Además, en #15 dices "Pero eso es otro tema, que la muestra sea representativa o no.". ¡Es que ése es el quid de la cuestión! Si no es representativa el resultado del estudio es totalmente irrelevante.

Claro, pero en respuesta a tu propuesta, no en defensa del método del estudio.

> Y finalmente, dices "el presumed innocent principle sólo se aplica a los autores que cometen erratas". Toma ya, ¿acaso no es eso aplicar las normas según interesen para probar lo que uno quiera?

_u ... a ver, recopilamos:

1. Los autores suponen que si hay D erratas diferentes sobre T erratas totales, pueden saber que hay D - T erratas copiadas por lo menos. A partir de ahí, suponen que esas D erratas son originales (ese es el PIP).
2. Tú dices que, como suponen que esas D erratas son originales, ¡también deben suponer que las "no-erratas" también son originales! Lo cual, obviamente, no tiene sentido.

> Si el principio consiste en suponer que todo aquel que no puede probarse como no-lector es lector, debe aplicarse a todos no a unos pocos según los intereses del autor del estudio.

El principio es:

Hipótesis I: x ∈
Hipótesis II: x está repetida n veces.
Conclusión: x es original una vez (y las demás repeticiones, n - 1, son copiadas)

¿Por qué hay que cargarse la hipótesis I? Las citas correctas no están en el dominio de la aplicación.

El autor quiere hacer un estudio, no dar garantías procesales a nadie. Es como decir:

"Todos los hombres son mortales. ¿Y por qué hay que aplicar este principio sólo a los hombres y no a las piedras? ¡OMG discriminación, Sócrates ha manipulado la lógica según sus intereses!"

Kartoffel

#18 > Son gente que se ha equivocado escribiendo la cita, entre los que la probabilidad de no haber leído el artículo es mucho mayor

La demostración que usan no se basa en que escribir bien o mal las citas tenga una relación con leer o no leer. Si tú copias la lista de referencias, vas a tener erratas si la lista original las tiene y no las vas a tener si la lista original no las tiene (es decir, has copiado). No tiene que ver con "escribir bien/mal la cita" o "tener o no erratas", sino con "copiar la cita".

> E insisto en que citan el "presumed innocent principle" lo que una vez más descarta tu argumentación.

En absoluto: We know for sure that among T citers, T − D copied,because they repeated someone else’s misprint. For the D others, with the information at hand, we don't have any evidence that they did not read, so according to the presumed innocent principle, we assume that they read. Then in our sample, we have D readers and T citers, which leads to Eq.(1).

Y D se define como the number of distinct misprints

Por lo tanto, el presumed innocent principle sólo se aplica a los autores que cometen erratas. Lo que quieren decir es, retomando mi ejemplo anterior: si hay 4 errores diferentes en los 10 exámenes erróneos, sabemos que 6 han copiado. Y a los otros cuatro les aplicamos el presumed innocent principle, y suponemos que no han copiado y sus erratas son originales. Pero no se aplica al resto de la clase que tiene los exámenes correctos.

> Vamos, han escogido a quien les interesaba para probar lo que querían. Trampa.

Ver #15, no tiene nada que ver con "escoger muestras sesgadas", sino con "escoger muestras que valgan para algo". En mi analogía, no podrías sacar ninguna conclusión, referente a la cantidad de alumnos que copian, a partir de los 10 estudiantes que han hecho bien el examen.

jm22381

#0 Vuelvo tras unos días sin ordenador y se ha liado esto por una diferencia entre MM04 por un MM40 roll

E

Meneame siempre ha sido un nicho de creación y expansión de Leyendas Urbanas y de desinformación.

pichorro

#12 No, no tiene sentido. Lo que tendría sentido es decir "no lo sabemos" en lugar de simplemente olvidarse de los que citan correctamente el artículo. Es seleccionar con quien quieren hacer estadística y con quien no. Fantástico resultado.

Es como si yo mañana fuera a la sede del PP de mi pueblo y preguntara qué opinan de Zapatero. Seguramente obtendría un resultado pésimo. Hasta aquí todo bien. El problema es si me da por publicar que "el 95% de los españoles consideran que Zapatero es estúpido". ¿Acaso no hay más personas en España? O en nuestro caso, ¿es que los que citan el artículo correctamente no cuentan?

Además, por si fuera poco, afirman en el artículo que emplean el "presumed innocent principle", por el que consideran que si no pueden probar que alguien no lo ha leído entonces asumen que sí lo ha hecho. Eso contradice por completo tu argumentación.

Por lo tanto, si en lugar de decir "sólo el 20% de los científicos leen los artículos que citan" dijeran "sólo el 20% de los científicos QUE COMETEN UN ERROR AL CITAR leen los artículos que citan" no tendría problema alguno. Como no lo hacen así, el artículo es incorrecto por completo, y tanto los autores como los que lo aceptaron para publicación metieron la pata hasta el fondo.

D

Lo peor es cuando de una cita te pasa a otra cita que cita lo que buscas, así hasta 17. Cuando por fin llegamos a la fuente original, decía : "private communication". Es decir, un resultado que no ha sido publicado y que te lo dice alguien (del gremio) de forma mas o menos confidencial.

Otro caso frecuente es cuando el "referee" (que si sois 4 monos y llevas muchos años, acabas conociendo a todos) dice: Le falta una fuente muy importante por citar. Evidentemente el suyo.

D

Yo sigo pensando que no era micrones ni micrómetros lo que quería decir. Me remito a mi comentario:

mm04-micrometeorito-hallado-antartida-revoluciona-astronomia-ing#comment-10

Kartoffel

Si llamamos r a D/T, cota superior, y a R el valor final, entonces, de hecho, es posible demostrar que r > R para cualesquiera valores de D, T y N con sentido (es decir, con N > T > D > 0)

Según las fórmulas del artículo:

r = D/T
R = D(N - T)/T/(N - D) = r·(N - T)/(N - D)

Tenemos que T > D. Multiplicamos por -1: -T < -D. Sumamos N: (N - T) < (N - D). Como N > D, entonces N - D > 0 (es positivo) Por lo tanto, dividiendo por (N - D) la expresión anterior, (N - T)/(N - D) < 1

Multiplicamos la expresión por r y obtenemos r·((N - T)/(N - D)) < r
Como r·((N - T)/(N - D)) = R, entonces obtenemos R < r, qed

En conclusión, r es una cota superior válida en cualquier caso.

La demostración con T >= D en lugar de T > D es idéntica, y el resultado es R =< r (es decir, si es posible que no se copie ninguna errata)

Kartoffel

#28 En tu ejemplo, si Rreal fuera 90%, entonces los lectores que cometen erratas serían 50/900 = 5.55% y los copiones que cometen erratas serían 50/100 = 50%. Lo cual no tiene sentido: sería harto improbable que habiendo una errata por cada veinte artículos, los copiones copiaran una errata una de cada dos veces. Tendrían que copiar las erratas a propósito.

Es absurdo plantear así el ejemplo: pongo unos datos y luego me invento un R incoherente con los datos

> Además, los autores dicen que su objetivo es obtener un "upper bound"

Claro, pero tiene que servir para algo. Poniendo un límite de 99.99% también obtengo una cota superior válida, pero inútil. Y, si te fijas, al emplear un modelo adicional, los autores obtienen un resultado muy cercano a la primera estimación.

Por otra parte, como es posible que alguien cometa la errata original sin leer el artículo, D/T no es la estimación definitiva. Pero, añadiendo esta posibilidad, la nueva cifra nunca va a ser mayor que D/T.

> pero seguro que jamás doy un límite por debajo de la realidad.

Si hubieras puesto R = 96% en lugar de 90%, no valdría, así que ni siquiera es seguro

Kartoffel

#32 > Será una situación más o menos probable, pero mi método jamás estimará un upper bound incorrecto

Véase #29 para un contraejemplo que sí haría tu cota superior incorrecta. Siempre se puede imaginar una casualidad tan grande tal que inhabilite una estimación estadística: con ese criterio, nunca podremos utilizar la estadística.

De todas maneras, con los métodos que usan posteriormente, R = D/T siempre es una cota superior correcta (ver #30)

Abeel

Este estudio es un saco

Fuente: Ramoncín.

pichorro

Déjame que elija los números de otra forma para mostrarte que el método de los autores puede llevar a error (aunque tú has elegido los números para que no lo haga).

Imaginemos que hay 100 erratas, 50 de las cuales son de autores que han leído. Por lo tanto, Rreal=90%, T=100, D=50.

- Método autores: R_A = D/T = 0.5 = 50% ---> Totalmente diferente de Rreal.
- "Mi método" : R_B = (1000 - 100 + 50)/1000 = 950 / 1000 = 0.95 = 95% ---> Cercano a Rreal.

Además, los autores dicen que su objetivo es obtener un "upper bound". Esto significa poner un límite superior a R. No están obteniendo Rreal, sino un valor del que pueden afirmar Rreal no puede exceder. Con mi método seguro que no excede ( Rreal < R_B mientras que Rreal > R_A). Por lo tanto mi método cumple con el propósito. Habrá veces en que el límite que yo esté dando no sea muy fuerte (como el ejemplo que has planteado en #25) pero seguro que jamás doy un límite por debajo de la realidad.

pichorro

#29 #30 Te respondo con un simple contraejemplo: #28. Será una situación más o menos probable, pero mi método jamás estimará un upper bound incorrecto. El tuyo, por ejemplo con la situación de #28, sí que puede. Por lo tanto no puede ser utilizado para dar upper bounds.

Otro ejemplo sería el del artículo. ¿Qué pasaría si todos los olvidados, es decir los que han citado correctamente, hubieran leído la referencia? El upper bound de 20% sería ridículo.

pichorro

En tu ejemplo ya has puesto un elemento que hace que la muestra no sea representativa. No sólo has seleccionado la muestra "coger a los neozelandeses en España", además has introducido "hacer que a los neozelandeses en España les caiga bien Zapatero", cosa que no ocurre en este caso. ¿O es que hay alguna razón para pensar que, cuando las listas de citas tienen erratas, los copiones las copypastean más?

La respuesta es sencilla: sí. Obviamente si leo un artículo es menos probable que cometa un error al citarlo. Por lo tanto, de entre los que citan correctamente habrá muchos más que han leído el artículo que los que no lo han leído. De ahí mi crítica.

Todos los hombres son mortales. ¿Y por qué hay que aplicar este principio sólo a los hombres y no a las piedras? ¡OMG discriminación, Sócrates ha manipulado la lógica según sus intereses!

¡¡Eso es precisamente lo que hace el artículo!! Deduce que de los que comenten errores solamente el 20% ha leído el artículo. Hasta ahí no tengo problema alguno. ¡Pero lo aplica al conjunto de TODOS los citadores! En tu lenguaje, aplica el razonamiento sobre los hombres a las piedras. Y como he dicho antes, creo que el conjunto de los citadores con error no es representativo, por lo que no puedes extrapolar el resultado.

pichorro

#19 Voy a ponerte una vez un ejemplo que demuestra a qué conduce esa forma de hacer estadística. Supón que quiero saber qué evaluación le dan a Zapatero en Nueva Zelanda. Para ello puedo

1) Ir a Nueva Zelanda a hacer una encuesta seria
2) Aprovechar que el gobierno acaba de invitar a un grupo de empresarios neozelandeses, que pasarán un par de semanas en Madrid con todo lujo gracias a que Zapatero corre con todos los gastos. Me acerco a su hotel y les pregunto qué opinan de Zapatero. Obtengo un 95% que dicen "es un tío cojonudo". Entonces razono del siguiente modo: (a) no he ido a Nueva Zelanda, luego no puedo saber qué opinan allí de Zapatero; y (b) sin embargo sí que puedo hacer estadística con los que tengo aquí. Por lo tanto concluyo que el 95% de Nueva Zelanda piensa que Zapatero es un tío cojonudo. Cuando me critiquen por seleccionar el espacio muestral a mi favor les puedo responer que es que del resto de neozelandeses no puedo saber nada, por lo que no puedo incluirlos. Y tan tranquilo.

¿No te parece absurdo?

Además, en #15 dices "Pero eso es otro tema, que la muestra sea representativa o no.". ¡Es que ése es el quid de la cuestión! Si no es representativa el resultado del estudio es totalmente irrelevante.

Y finalmente, dices "el presumed innocent principle sólo se aplica a los autores que cometen erratas". Toma ya, ¿acaso no es eso aplicar las normas según interesen para probar lo que uno quiera? Si el principio consiste en suponer que todo aquel que no puede probarse como no-lector es lector, debe aplicarse a todos, no a unos pocos según los intereses del autor del estudio.

pichorro

#15 Estaría de acuerdo si la selección realizada fuera representativa, pero en este caso no puede serlo menos. Son gente que se ha equivocado escribiendo la cita, entre los que la probabilidad de no haber leído el artículo es mucho mayor. Vamos, han escogido a quien les interesaba para probar lo que querían. Trampa.

E insisto en que citan el "presumed innocent principle" lo que una vez más descarta tu argumentación.

pichorro

Evidentemente, no la hay, ya que si copio la lista de citas voy a copiar las erratas si las hay y no las voy a copiar si no las hay. Obvio, ¿no?

Si copias de una base de datos estoy de acuerdo, pero un artículo de 1973, como el usado en el estudio, ha sido citado varios miles de veces ANTES DE QUE EXISTA INTERNET, y por lo tanto no se ha citado copiando una lista, sino escribiendo personalmente la cita. Por lo tanto, si he leído un artículo lo tengo al lado, y es mucho más complicado que me equivoque al citarlo. En consecuencia, de entre los que han citado bien habrá más lectores que no lectores. La conclusión es que eliminarlos del estudio es falsear el resultado.

Creo que ésta es la clave de nuestra discusión. Parece que ninguno de los dos va a cambiar de opinión. Yo considero que el conjunto empleado no es representativo (por la razón que he dado) y tu consideras que sí. En cualquiera de los dos casos, creo que saldríamos de dudas si se hace un estudio con todos los citadores. Como eso no es posible, dado que no podemos determinar a ciencia cierta si son lectores o no, me parecería razonable decir que el estudio no es concluyente. Eso como mínimo.

noexisto

Totalmente de acuerdo con el fondo del artículo

charly-0711

Leí el artículo y no entendí donde estaba el error, es decir, cuál es la diferencia en un lenguaje accesible para los no científicos.

D

Con lo de las "Citas a ciegas" me han calado lol

Kartoffel

#54 ¿Cómo? Según el modelo, hay R(N - T) "lectores buenos citadores". No sé de dónde sacas que los descarta

Kartoffel

#52 El modelo ya tiene en cuenta que se pueda cometer una errata al copiar la cita, así que ese factor es casi irrelevante:

Each new citer finds the reference to the original in any of the papers that already cite it. With probability R he reads the original. With probability 1-R he copies the citation to the original from the paper he found the citation in. In any case, with probability M he introduces a new misprint.

Kartoffel

#50 Evidentemente, porque el no-lector no va a citar otra vez, va a copiar la cita. Así que cometerá una errata en todos los casos en los que tú la pongas y va a copiar la cita correcta en todos los casos en los que cites correctamente.

De nuevo: que los copiones sean peores citando no importa, porque no citan, sino que copian.

Kartoffel

#48 > Veo mucho más difícil que cometa un error alguien que hace eso que alguien que toma la referencia de otro artículo, sin haberla tenido que buscar él mismo

De nuevo: eso no tiene sentido. Si copias la cita (ya sea de forma digital o "analógica"), da igual lo bueno o malo que seas citando: tu cita contendrá las mismas erratas que el original. Y la probabilidad de poner una errata (por parte de los lectores) tampoco importa.

La base de tu argumentación es que los lectores ponen menos erratas que los copiones. Como ya dije en el comentario anterior, eso puede tener sentido, pero realmente no importa, porque los copiones no ponen erratas (las copian).

> No sé si vale la pena seguir insistiendo...

Es que no entiendo por qué sigues pensando eso...

Kartoffel

#46 > pues me parece más probable encontrar un no-lector entre los que citan incorrectamente que entre los que citan

Es que no tiene sentido plantearse así la cuestión: no es que los no-lectores cometan más o menos erratas que los lectores, es que tanto las erratas como las citas correctas lo son porque están copiadas. No importa que los no-lectores sean mejores o peores citando, porque no citan: copian.

El hecho de que la cita sea correcta no te va a hacer dejar de copiarla. Por lo tanto, los copiones no tienen por qué poner más erratas en sus artículos.

Suponer que los copiones son peores citando y que cometen más erratas puede tener sentido, pero en realidad eso no importa en este tema.

Kartoffel

Parece que al editar me cargué parte del texto, lo repongo aquí:

1. Sí que hay contraejemplos, ver el de #38

2. Si definimos "upper bound correcto" como "ratio tal que no se puede imaginar una casualidad que lo invalide", entonces ambos son incorrectos, el tuyo y el de los autores. El hecho de que, invalidando el tuyo, tenga que invalidar el de los autores no me importa: quiero demostrar que ambos son incorrectos (en el sentido anteriormente enunciado), no que el tuyo sea incorrecto pero el de los autores no (es decir, que o ambos son correctos o ambos son incorrectos). Es un razonamiento kamikaze

Kartoffel

#43 1. Sí que hay contraejemplos, ver el de #38 que no se puede imaginar una casualidad que lo invalide", entonces ambos son incorrectos, el tuyo y el de los autores. El hecho de que, invalidando el tuyo, tenga que invalidar el de los autores no me importa: quiero demostrar que ambos son incorrectos (en el sentido anteriormente enunciado), no que el tuyo sea incorrecto pero el de los autores no (es decir, que o ambos son correctos o ambos son incorrectos). Es un razonamiento kamikaze

3. Con esa definición de "incorrecto", no me importa admitir que lo es. Pero entonces tienes que reconocer que el tuyo también es incorrecto, como ya he dicho.

4. Volvemos a lo mismo: esto es estadística, sigue siendo una estimación, y como sigue siendo una estimación, el hecho de que se pueda encontrar una casualidad que la invalide no lo transforma en inútil.

5. Observación adicional: si no aceptas el "axioma de copia", entonces toda tu crítica a los autores carece de sentido. Los autores son coherentes con los principios que adoptan, y tan realista es el "axioma de copia" como el "axioma de no-casualidad".

Kartoffel

#41 1. Te cito del artículo: As a preliminary attempt, one can estimate an upper bound on the ratio...

2. > Toda su argumentación se basa en que nadie puede repetir una errata al azar

Y en que, al copiar citas, las copias tendrán una proporción de erratas similar a la de los originales (llamémosle "axioma de copia").

> Partes de un axioma y luego usas un contraejemplo que viola tu propio axioma para atacar mi argumentación.

Claro, para demostrarte que tú estás haciendo lo mismo: imaginar situaciones improbables. Si tú niegas el "axioma de copia" para imaginar un contraejemplo a la argumentación de los autores, yo hago lo mismo: negar el "axioma de no-casualidad" para imaginar un contraejemplo a tu argumentación.

En resumen: me acabas de acusar de lo que llevas haciendo una decena de comentarios.

3. Lee #30. Te cito:

Si llamamos r a D/T, cota superior, y a R el valor final [...]

Según las fórmulas del artículo:

r = D/T
R = D(N - T)/T/(N - D) = r·(N - T)/(N - D)

4. Ver la cita del artículo del punto 1. No es un "upper bound"; es una estimación de "upper bound"

> Y por favor, evita frases como Tienes un cacao mental bastante importante. Yo no he hecho ningún comentario similar sobre tus afirmaciones y creo que te he tratado con respeto pese a estar en desacuerdo

Lo siento; ha sido una reacción "en caliente" después de que me hayas dicho que he resuelto mal dos inecuaciones de secundaria, cuando eso es totalmente falso, como cualquiera que tenga una formación elemental de matemáticas puede comprobar en medio minuto; y después de que dijeras que tus ejemplos contradijeran mi demostración, lo cual es también falso.

Kartoffel

#39 1. Los autores no han dicho que su ratio sea 100% correcto, así que tu argumento, desde el principio, es falso. Además, da igual que tú quieras un valor 100% verdadero y estar seguro, porque nunca lo vas a obtener.

2. De la misma manera que tú has puesto contraejemplos que son harto improbables (que habiendo una errata cada veinte artículos, la mitad de las copias tengan erratas), yo también he puesto un contraejemplo improbable (que dos autores cometan la misma errata), para demostrarte que tu método tampoco es 100% correcto.

3. Tienes un cacao mental bastante importante:

No has dado dos contraejemplos en los que R > r (la estimación final y la inicial), has dado dos contraejemplos en los que el ratio real está por encima tanto de R (estimación final) como de r (estimación inicial). Así que la demostración es correcta. Y me da igual que me pongas contraejemplos de que 2 + 2 no es igual a 4; si según un contraejemplo, 2 + 2 = 5, entonces el error está en el contraejemplo. Así que ponme todos los supuestos "contraejemplos" que quieras, pero mi demostración es válida.

> Nota a 3: En #33 dijiste Siempre se puede imaginar una casualidad tan grande tal que inhabilite una estimación estadística. Una demostración como la tuya, basada en desigualdades, no puede tener excepciones "por una casualidad". Así que o es cierta en todo caso o es falsa. Como he proporcionado dos contraejemplos ha de ser falsa por necesidad.

Y es así, no hay excepciones a mi demostración. Ponme un contraejemplo válido (y esos dos no lo son, y si quieres hacemos las cuentas)

4. No es arbitrario, te pongas como te pongas. Y que falle no quiere decir que sea una estimación mala, sólo quiere decir que es una estimación. Si no fuera una estimación, sería una certeza.

Kartoffel

#37
1. Es que los autores no quieren dar un upper bound ultramegacorrecto, quieren estimar cuántos autores leen. +1 para los autores
2. Sí que falla, te pongo un contraejemplo:

Ninguno de los autores copia, y 10 cometen la misma errata por casualidad, sobre 20 erratas totales. N = 100, D = 10, T = 20, Rinútil = 90% y Rreal = 100% con lo que tu método falla.

3. Mi demostración es correcta (y ya he explicado por qué puede fallar el método, pero la demostración sigue siendo correcta). Si son dos inecuaciones de secundaria T_T

4. El resultado no es arbitrario (¿por qué lo es?), es mucho más arbitrario el tuyo (¡no tiene nada que ver lo que obtienes con lo que ocurre en realidad, salvo que truques los números para generar casos totalmente irreales!). Y ambos pueden fallar

Kartoffel

En conclusión:

1. El método proporciona una estimación muy cercana a la realidad, quitando carambolas prácticamente imposibles.
2. Tu "método", por muy "correcto" que sea, no vale para nada. En el caso del artículo, se equivoca por un 96% - 22% = 74%, con un error relativo del 336% (!!!)
3. Los autores han obrado bien, en contra de lo que sostenías en #11, como se puede ver en #30

Kartoffel

#34 Cometes de nuevo el mismo error, poner datos que no tienen sentido: si hay 18 erratas en 96 artículos originales, el 18.75% de los artículos tienen erratas. De los cuatro autores que copian, ya deberían tener mala suerte para conseguir poner erratas en el 50% de las copias.

> Mi método no puede fallar nunca al dar un upper bound

De nuevo, no es un argumento. Si yo digo r = 1, también doy un "upper bound" válido.

> Por otro lado, he mostrado dos contraejemplos (ver #32) que demuestran que tu método puede fallar

Te repito lo mismo: es una estimación estadística, no una fórmula matemática. Siempre se puede imaginar una casualidad tan grande que se salga de lo normal.

> Por lo tanto, tu demostración en #30 debe contener algún error.

No hay ningún error en #30 (¡si son un par de sencillas inecuaciones!). Demuéstralo en caso contrario

pichorro

#40

1. ¿Sabes lo que significa upper bound? Basta que imagine un único caso por encima de dicho valor como para que el upper bound sea inválido. ¡Por definición!

2. Si no estamos de acuerdo en ese principio naaaaaaaaaaaada del artículo del que discutimos tiene sentido. Toda su argumentación se basa en que nadie puede repetir una errata al azar. Yo pensaba que teníamos ese supuesto en común (más que nada porque sin él tu argumentación es totalmente absurda). Si no lo es, no vale la pena que sigamos discutiendo. Partes de un axioma y luego usas un contraejemplo que viola tu propio axioma para atacar mi argumentación.

3. No sé a qué te refieres con r. Por favor, define si quieres discutir sobre esa cantidad. Yo he dado dos contraejemplos en los que vuestra fórmula D/T da un upper bound para R por debajo de la cantidad real. Por lo tanto el upper bound es incorrecto. En cambio, he aplicado mi fórmula a dicho caso y he encontrado un upper bound correcto. Así de simple.

4. Un upper bound no es lo mismo que una estimación. Si yo te digo "TODOS los estudiantes de esta clase tienen una edad menor de 20 años" y resulta que hay un estudiante que tiene 22 entonces mi upper bound, 20, es falso. Un único contraejemplo basta para demostrar que mi upper bound es falso.

Y por favor, evita frases como Tienes un cacao mental bastante importante. Yo no he hecho ningún comentario similar sobre tus afirmaciones y creo que te he tratado con respeto pese a estar en desacuerdo.

pichorro

#42

1. En ese caso te respondo que mi estimación es mejor, puesto que no hay ejemplo que la contradiga, mientras que puedo idear ejemplos que contradicen la suya.

2. Sí, pero la diferencia es que yo nunca he usado ese axioma. Es más, de hecho he estado en contra de él desde el principio. Por eso es lícito que lo contradiga, pues mi razonamiento no descansa sobre él. En cambio, tu razonamiento descansa por completo en el "axioma de no-casualidad" (me gusta el nombre ), por lo que no puedes negarlo para atacar mi postura porque entonces la tuya carece de base. Y si no puedes usarlo mi postura es irrefutable, pues (insisto) es la más conservadora posible, y por lo tanto es impensable una situación en la que Rreal sea mayor que mi upper bound.

3. Ah, vale, perdona, olvidé esa notación. Ok. Bien. En ese caso creo que vamos a encontrar un punto de acuerdo. Si te digo la verdad no leí tu demostración en #30 porque, al pensar que tenía contraejemplos, no le vi sentido alguno. Mea culpa. Ahora veo que lo que demuestras en #30 es que R R,r. Por lo tanto, el punto que quiero hacer constar desde el principio es que si afirmas que "sólo el 20% de los científicos leen los artículos que citan" y se insiste en que "el upper bound es de 20%" estás diciendo que como mucho el 20% de los científicos leen los artículos que citan. Yo he dado ejemplos de casos en los que la esas fórmulas (tanto r como R) fallan totalmente, pues predicen un upper bound por debajo del valor real, lo cual invalida su condición de upper bound.

Por lo tanto mi postura sigue siendo la misma. Tanto r como R dan un upper bound incorrecto.

4. Repito lo mismo del primer punto. Un upper bound es por definición un valor insuperable. Si te puedo dar fácilmente ejemplos que lo superan claramente entonces está mal estimado. En cambio mi upper bound no puede fallar. Será mejor o peor, pero es imposible encontrar un ejemplo que lo invalide.

Por cierto, ¿no crees que sería genial que Menéame tuviera un botón responder? Nos ahorraríamos copiar textos y todo el rollo (¡sugerencia para quién toque!).

pichorro

#38

1. Es que los autores no quieren dar un upper bound ultramegacorrecto. Pues yo sí. No puedes decir "el 80% de los científicos no leen los artículos que citan" si no estás seguro.

2. Ese caso que mencionas está fuera de nuestro análisis (tanto el tuyo como el mío) porque por principio asumimos que dos erratas iguales no pueden darse al azar. Por supuesto ése es un principio añadido, pero pensaba que ambos lo teníamos asumido. Si descartamos ese detalle (que tanto tú como yo compartimos) mi método jamás puede fallar, puesto que se basa en la estimación más conservadora (que todos los citadores correctos son lectores).

3. Tu demostración no puede ser correcta, porque te he dado dos contraejemplos. La revisaría, pero no lo veo necesario ante la existencia de contraejemplos. Mientras no refutes eso no creo que este punto esté en disputa.

Nota a 3: En #33 dijiste Siempre se puede imaginar una casualidad tan grande tal que inhabilite una estimación estadística. Una demostración como la tuya, basada en desigualdades, no puede tener excepciones "por una casualidad". Así que o es cierta en todo caso o es falsa. Como he proporcionado dos contraejemplos ha de ser falsa por necesidad.

4. Su resultado es arbitrario porque puede haber casos en los que el bound falla, y por lo tanto ya no es un bound. Aunque tienes razón, en lugar de arbitrario debería decir "incorrecto".

pichorro

#45 Parece entonces que lo reducimos todo a un punto. El ya famoso "axioma de copia". Si te fijas, fue lo que critiqué en mi primer comentario #11 (qué tiempo tan lejano).

En mi opinión, el axioma no modeliza correctamente la realidad, pues me parece más probable encontrar un no-lector entre los que citan incorrectamente que entre los que citan, por lo que la extrapolación empleada (mal citadores -> buenos citadores) me parece injustificada. Es lo mismo que decir que tomar los malos citadores para hacer estadística es una mala elección.

Pero sobre ese punto ya discutimos... Yo lo veo mal y tú lo ves bien...

pichorro

#47

Cuando se copia al estilo moderno (copy/paste de una lista creada para otro artículo disponible en internet) es "algo más cierto" lo que comentas. Pero cuando un "lector-citador" hace 15 años citaba un artículo lo hacía del original, leyendo la referencia original que él mismo había tenido que buscar. Veo mucho más difícil que cometa un error alguien que hace eso que alguien que toma la referencia de otro artículo, sin haberla tenido que buscar él mismo. Esa es la base de mi argumentación. Poniendo un ejemplo análogo, yo recuerdo los títulos de muchos libros que he leído, mientras que es muy probable que cometa errores al intentar dar el título exacto de libros sobre los que solamente me han hablado. Por lo tanto, dado un acierto sobre el título de un libro es más probable que lo haya leído.

En cualquier caso, sobre este punto ya hemos dado vueltas. No sé si vale la pena seguir insistiendo...

pichorro

#49 ¿De verdad piensas que si tengo el artículo en mis manos y me he preocupado en buscarlo (en internet o en una biblioteca, en ambos casos hay que USAR SU REFERENCIA CORRECTAMENTE para encontrarlo) tengo la misma probabilidad de equivocarme que el que lo cita copiándolo de la lista de referencias de otro artículo?

pichorro

Mi conclusión:

1. El método falla al dar upper bounds, pues es posible imaginar situaciones en las que da un resultado por debajo de la realidad. Por lo tanto, POR DEFINICIÓN DE UPPER BOUND, es incorrecto.
2. Mi método jamás falla dando un upper bound.
3. Tu demostración en #30 es incorrecta ¡porque tengo dos contraejemplos! (1 contraejemplo vence a 1000 demostraciones)
4. Los autores han actuado mal, dando un resultado arbitrario que puede ser incorrecto.

pichorro

#51 Estoy de acuerdo con lo que comentas, pero no veo que tu argumento refute el mío. Vamos, que creo que no tiene nada que ver. Creo que no me he explicado bien.

Consideremos dos personas: A y B.

La persona A quiere leer el artículo, para lo que consulta la referencia y la copia en un papelito. Después va a una base de datos (sea ésta una biblioteca o internet) y lo busca. Una vez encuentra el artículo lo lee. Como le parece relevante para su trabajo lo cita en su propio artículo.

La persona B quiere citar el artículo pero no está interesada en leerlo. Así que consulta la referencia y la copia directamente a su artículo.

Cierto es que los dos copian la referencia. Pero si A lo hiciera mal no habría podido leer el artículo, mientras que B puede copiar mal sin darse cuenta. De ello deduzco que si alguien ha leído un artículo es más difícil equivocarse al citarlo y, consecuentemente, si una cita es correcta, es mucho más probable que el autor haya leído el artículo.

Se podría argumentar que A puede copiar bien el artículo al buscarlo pero escribirlo mal al citarlo. Sin embargo considero eso mucho más improbable que una mala copia parte de B, puesto que A ya se habría molestado en buscar el artículo, imprimirlo y leerlo, por lo que habría visto más de una vez la referencia, mientras que B solamente la ha visto al copiarla.

En conclusión, si entre los correctos citadores esperamos más lectores que no-lectores, descartarlos del cálculo es incorrecto, pues falsea los resultados.

pichorro

Sí, pero el modelo descarta como "lectores" a los "buenos citadores", por lo que de raíz está cometiendo el error que critico.

pichorro

#33 En primer lugar, déjame aclarar que mi método también da un buen upper bound a la situación que propones en tu comentario #29:

Supongamos 100 citas a un artículo. Imaginemos que leen el artículo 96 personas (con lo que Rreal = 96% como pedías), y que hay 20 erratas, 18 de las cuales son de autores que han leído y 2 de autores que no han leído. Por lo tanto, Rreal=96%, T=20, D=18.

- Método autores: R_A = 18/20 = 0.9 = 90% ---> Mal bound.
- "Mi método" : R_B = (100 - 20 + 18)/100 = 98 / 100 = 0.98 = 98% ---> Buen bound.

Mi método no puede fallar nunca al dar un upper bound, puesto que asumo que todos los citadores correctos son lectores. Por lo tanto, no puedo dejarme a nadie fuera del conjunto de los lectores que pudiera serlo. Es, por definición, el upper bound más conservador posible. pero por ello nunca falla. Por otro lado, he mostrado dos contraejemplos (ver #32) que demuestran que tu método puede fallar (aunque no siempre lo hará, claro). Por lo tanto, tu demostración en #30 debe contener algún error.