2022/07/25

S2 Limpieza de Datos Atípicos por Desviación Estándar

LIMPIEZA DE DATOS ATÍPICOS POR DESVIACIÓN ESTÁNDAR

Otra forma muy popular de limpiar los datos es con la desviación estándar.

Entonces van a al cuaderno.

El último elemento del cuaderno.

La desviación estándar es una de las medidas estadísticas más populares y de mayor uso.

Esta medida indica el grado de dispersión alrededor de una media.

La media sería donde se concentra el centro de los datos, y a partir de ahí se agrupan.

Una desviación estándar muy grande indica que los datos a partir de la media están muy dispersos.

Una desviación pequeña indica que están muy concentrados alrededor de la media.

Python puede ayudar a identificar la desviación estándar de un conjunto de datos, a partir de ahí, poder eliminar una desviación, dos desviaciones o tres desviaciones estándar, los datos atípicos y poder eliminarlos.

Entonces, esto se hace de una manera muy muy práctica.

Primero van a utilizar una librería de especial que se llama stats.

Stats es un conjunto de medidas estadísticas las cuales se puede importar directamente a Python.

El sell price que es el costo de las casas y lo va a guardar igual como sp.

Ok, va a utilizar stats y calcular el set score.

El set score es la distribución normal.

Nada más que se llama set score.

Con ello se puede calcular el número de desviaciones estándar por lo cual una medida está por arriba o por abajo de la distribución normal, y eso lo van a guardar como z.

Entonces ya va a dar el número de desviaciones estándar que está arriba o abajo de la media.

Se requiere eliminar los datos que estén muy alejados de la media aritmética que sería el elemento central.

Entonces una división son los elementos que están más o menos dentro de un contexto cercano, dos desviaciones ya están más alejados, tres desviaciones son los elementos que ya están muy muy alejados de la media, entonces estos son los que se quiere eliminar.

Entonces, como el caso anterior van a hacer un filtro, van a decir, todos los elementos que estén por arriba de tres, es decir, tres desviaciones arriba, todos son menores a tres, o sea muy muy abajo, lo vas a combinar y lo vas a seleccionar de sp, y a eso los va a llamar sp clean.

Y similar al caso anterior le va a llamar df  "elimina estos elementos a través de su índice".

Entonces, lo corremos y ya se tiene eliminado un conjunto de datos, el conjunto de datos que se puede considerar atípico.

Al menos para el precio de las casas.

Algo que se puede notar de esto es que aquí quedaron con 1,438 rows, o filas, mientras que en el anterior quedó con 1,399.

En cada una de las diferentes formas de eliminar los valores atípicos funciona de forma diferente por lo tanto no van a quedar los mismos conjuntos.

Esta decisión de cuál utilizar, uno u otro, ya será la que se tiene que hacer más adelante dependiendo del modelo de estudio que se este haciendo.

Dependerá mucho de los resultados que de los modelos predictivos y ese era uno de los posibles ajustes que se puede hacer en caso que se quiera mejorar o empeorar un poquito la calidad de el modelo para estarlo ajustando.

Entonces, con eso concluimos la limpieza datos en Python.

Te invitamos a continuar tratando de limpiar las diferentes columnas que tiene este conjunto de datos, e incluso ir a Kaggle, descargar un conjunto datos diferente y estar probando a estas técnicas.

No hay comentarios:

Publicar un comentario

S4 Cierre

Cierre Semana 4 Muchos de los problemas actuales a los que se enfrenta un científico de datos involucran el manejo de grandes cantidades de ...