Publicado hace 2 años por Thornton a victoryepes.blogs.upv.es

Un valor atípico es una observación que numéricamente es muy distinta al resto de elementos de una muestra. Estos datos nos pueden causar problemas en la interpretación de lo que ocurre en un proceso o en una población. Por ejemplo, en el cálculo de la resistencia media a compresión simple de unas probetas de hormigón

Comentarios

Robus

Interesante, pero me extraña que no hayan comentado lo que yo llevo años haciendo:

Si lo que interesa es estudiar el comportamiento de la normal, se ignoran los outliers.

(Si estás estudiando el precio por el que se han vendido las residencias en una zona y hay 3 inmuebles que se han vendido a precios extremadamente altos o bajos, se ignoran esos precios porque lo que quieres es la tendencia de los precios en esa zona y los outliers a la baja pueden deberse a la compraventa entre hermanos o similares; aunque también podría considerarse en este caso esos datos como un "factor faltante" muchas veces no disponemos de esa información, por lo que es más práctico eliminarlos)

Si lo que interesa es estudiar el comportamiento de los outlayers, se estudian aparte o se sobrerepresentan de forma que dejen de ser outliers.

(Por ejemplo si tienes un conjunto de datos de 100.000 eventos y de ellos 2.000 son outliers puedes estudiar un conjunto de 20.000 registros de los cuales 2.000 sean esos outliers, que pasan de ser un 2% a un 10% por lo cual dejan de ser "outliers" para tu muestra reducida, si las conclusiones de esta muestra se adaptan tanto a las 98.000 restantes como a las 2.000 en estudio, tienes un resultado válido).

Aunque, normalmente, primero se repasan todos los outliers para descartar los susceptibles de errores de toma de datos (hace años tuve un caso en que nos extrañó que un conjunto de outliers provenian de la misma fuente, descubrimos que era un sensor erroneo (*) y se eliminaron los datos obtenidos por ese sensor antes de continuar el estudio).

También hay que sobrerepresentar los outliers que podrían provocar problemas de producción para estudiar su causa (por ejemplo, casos en que la estructura del producto es tan débil que no cumple los requerimientos).

Interesante el artículo de todas formas.



(*) Bueno, el sensor erroneo era un tipo que se inventaba los resultados que no le apetecía buscar, pero eso es otra historia.

p

la mediana (si, ni he pinchado en el enlace)

roybatty

la resistencia media a compresión simple de unas probetas de hormigón

ya veo referencias al PP en todas las noticias