LIMPIEZA DE DATOS ATÍPICOS POR CUARTÍLES
Ver lo que son cuartiles y los datos atípicos, para continuar con el proceso de limpieza de datos.
Hay dos formas principales de limpiar datos atípicos que son los datos raros o que salen del grueso de los datos que sería a través de cuarteles o por desviaciones estándar.
Entonces, se maneja lo que es la limpieza por cuartiles.
Entonces, primero hay que definir qué son los cuartiles.
Bueno, los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales.
Generalmente es el 25%, 50% y 75%.
Tres divisiones que generan cuatro segmentos.
Con los cuartiles se puede valorar rápidamente la dispersión y tendencia de los datos, es decir, dice rápidamente cómo está formada la información, cómo se distribuye, diga, en un eje, verdad.
Va a utilizar brevemente una gráfica llamada gráfica de cajas y bigotes.
Va a ver en detalle más adelante, en la siguiente unidad, pero por el momento se puede introducir como que hay una caja donde el grueso de los datos, o sea el 50% de la información, se contiene dentro de la caja.
A partir de ahí salen unas líneas llamadas bigotes normalmente los cuales demuestran el rango de los datos.
La posición de estos bigotes se establece a partir de 1.5 veces el rango inter cuartil.
¿Qué es este rango? Bueno, es el tercer cuartil menos el primer cuartil, eso lo multiplicamos por 1.5 y eso da el rango de nuestra información.
Lo que salga de ese de ese rango de datos lo van a llamar datos atípicos.
Entonces, ¿cómo se ve todo eso que esta mencionando?
Bueno, para ello Pandas va a ayudar y a utilizar una función llamada boxplot.
Si la ejecuta, va a ejecutarla dos veces, ahí está, nos va a dar una gráfica.
Esta gráfica lo pasa como parámetro "precio de venta" que es una columna del conjunto de datos, que indica el precio de las casas en dólares.
Lo dice esta gráfica es que la mayoría de los datos se encuentran entre 120 mil dólares a 210 mil dólares por dar un estimado, esto es lo que se encuentra dentro de la caja.
Este bigote que se encuentra en la linea.
Es decir, 1.5 veces el rango inter cuartil.
Lo que se encuentre fuera de ese rango son datos que se pueden considerar aislados, entonces todos estos datos es posible que requiera limpieza.
Ahora, van a utilizar eso del rango inter cuartil para poder limpiar los datos.
Se va a obtener el precio de venta de las casas y lo guarda como sp para tenerlo más local en vez de estar llamando al conjunto de datos completo, y le va a decir que dé el primer rango inter cuartil.
Entonces, van a calcular límite superior, es decir, hasta dónde llega el primer bigote.
Esto es a partir del tercer cuartil, que es el .75, es decir, este de aquí, le van a sumar el inter cuartil.
Van a calcular el inferior que es el .25 menos el rango inter cuartil.
Entonces, ya se tiene delimitado el límite superior y el límite inferior.
Va a ejecutarlo, y ya los tiene y guardado.
Entonces, ya con estos límites calculados lo que van a hacer es tratar de seleccionar todos los datos que son atípicos, para eso le van a decir a sp que de todos los valores que están por encima de el límite superior, o sea mayor, o igual que el límite superior, recordemos que sp es la columna del sales price, o, un "o" lógico, da todos los valores que están menores o igual al límite inferior y eso lo van a filtrar con sp.
Entonces, lo va a guardar en esta variable sp_clean, y aquí estan todos los valores que son atípicos.
Probemos con alguno, por ejemplo, se tiene este, el 59, que tiene el Id 59, y dice 438,770.
Entonces, si lo buscamos en nuestra gráfica sale del límite superior por lo tanto sí es un dato atípico.
Entonces, Pandas ayuda simplemente eliminarlo.
Le puedes decir al data frame "elimina, con sp_clean, su índice".
Entonces, lo esta eliminando por el valor del Id.
Lo eliminamos, y dan los valores limpios, sin valores atípicos.
Pero recordemos que esto lo hicimos nada más con sells price, no con las demás columnas, entonces esto hay que repetirlo para las columnas que más nos interesen en el estudio.
Con se concluye la limpieza de datos por cuartiles.
En el siguiente tema vera cómo limpiar los datos por una distribución normal.
No hay comentarios:
Publicar un comentario