GRÁFICAS DE CAJAS Y BIGOTES
Revisemos juntos
¿Qué son los gráficos de caja?
Bueno, para eso también hemos preparado un cuaderno igual que las lecciones anteriores.
Nuestro cuaderno cabe destacar que, se los repito, por favor descarguenlo en una carpeta.
Recuerdan en que carpeta va a ser porque después tiene que, el material adicional, pegarlo en la carpeta de Data para que podamos trabajar con el.
En mi caso ya lo tengo descargado y lo tengo en mi escritorio.
Entonces, voy a abrir mi cuaderno, mi cuaderno 'Gráfica de Caja'.
Mi cuaderno empieza de igual forma que los ejemplos anteriores con una pequeña explicación para la gente que no conoce ese tipo de gráficas.
Y después continuaremos haciendo algunos cuantos ejercicios, utilizando Python.
Bueno,
¿Qué es una gráfica de caja?
Las gráficas de caja son una conveniente representación gráfica de un grupo de datos utilizando sus cuartiles como referencia.
Este tipo de gráficas son utilizadas en la estadística descriptiva y son una excelente forma de analizar los datos rápidamente con la ventaja principal de que ocupan un espacio muy reducido.
¿Cuáles son las cosas que se pueden observar con un gráfico de datos?
Aquí tiene un ejemplo, aún no sabemos como se desarrolla, no sabemos como se dibujan las cajas pero va a analizar sus componentes.
tiene un extremo superior asociado o el valor mayor, tiene un extremo inferior asociado al valor menor y tiene un punto intermedio que es la mediana.
La mediana es el punto más importante en el que va a empezar a referenciar nuestras gráfica.
De la mediana a un cuartil superior va a identificar el 25 por ciento de los datos, en esta sección que nuestro ejemplo, está en un verde oscuro, el 25% de los datos que estén entre el cuartil superior y el extremo superior están en esta línea recta.
Normalmente esas líneas se conocen como bigotes, de igual forma, de la mediana al cuartel inferior se encuentra el 25% de nuestros datos y del cuartil inferior al extremo inferior se concentran en los datos restantes.
Algunas veces hay datos que son completamente atípicos que son o muy mayor o muy muy muy mayores que ya se alejan mucho o muy menores.
Estos datos atípicos en los diagramas de caja se representan como estos puntos individuales pero, bueno va a hacer un ejemplo de calificaciones, de algo del día a día para que podamos entender
¿Cómo se construye esta caja?
En la siguiente tabla se presentan las calificaciones de 15 alumnos aquí las se podra ver y están ordenadas desde el 53 que es la mínima hasta el 94 que es la máxima.
Encontramos la mediana cuando ya están ordenados localizando el punto que este exactamente a la mitad.
En el caso de aquí es el 79, el cuartil inferior lo va a encontrar buscando la mitad de los datos que están del lado izquierdo de la mediana es decir el 69 y el cuartil superior lo va a encontrar de la misma forma pero con los datos que están después de la mediana es decir la mitad de estos datos el 87.
Entonces mis datos importantes quedan como el extremo menor el 53, el cuartil 1 o cuartil inferior el 69, la media o cuartil 2 el 79, el cuartil superior o cuartil 3 el 87, y el extremo superior el 94.
Yo ubico esos puntos en mi caja, los extremos de los bigotes son el valor menor y el valor mayor.
La caja empieza a dibujarse a partir del cuartil 1 hasta el cuartil 2 con un color claro y del cuartil 2 al cuartil 3 en este caso con un color más oscuro entonces nuestra gráfica esta dividida por cuatro conjuntos de datos.
Los datos en la línea izquierda que son los que están entre el valor menor y el cuartil inferior, los datos que están en la primera sección de la caja entre el cuartil 1 y la mediana, los datos que están en la segunda sección de la caja del cuartil 2 al cuartil 3 y los datos que están entre el cuartil 3 y el valor máximo.
Normalmente en este tipo de ejemplos, en este tipo de representaciones el 50% de los datos están contenidos dentro de la caja lo cual nos permite darnos una idea sencilla y rápida de cómo se encuentran distribuidos los datos, simplemente viendo la caja y sin tener conocimiento de ellos.
Continuaremos utilizando la misma libreta para realizar algunos cuantos ejemplos, ocuparemos la misma base de datos que ocupamos en el ejercicio de los Histogramas de 'Enfermedades del corazón', de todas formas si este es el primer vídeo que estás siguiendo de manera práctica, no te preocupes aquí está el link por si quieres bajarlo desde Kaggle pero, bueno.
Empezaremos nuestro ejemplo diciéndole que va a trabajar con pandas porque necesitamos esta herramienta para trabajar los Data Frames, empieza importando pandas como un pd, le doy run y le digo mi data frame va a ser igual a lo que leas, con pandas del archivo corazón, y voy a mostrar los primeros 5 valores de esta Data Frame para ver que lo haya importado en forma correcta.
Aquí tengo los primeros 5 registros de este Data Frame y ahora sí voy a trabajar con este.
Con esto, voy a hacer unas 'Gráficas de Cajas'.
Bueno, la primera parte voy a ocupar Matplotlib y lo voy a importar como plt para poder trabajar gráficas.
Además le voy a decir que voy a ocupar en línea Matplotlib para que pueda utilizarlos dentro de esta libreta.
Bueno, mi primera parte voy a hacer un 'Box Plot' o 'Gráfico de Cajas' con la columna de colesterol y el Data Frame y a esa gráfica le voy a poner box plot de colesterol.
va a mostrarla, va a darle run y aquí está mi primera gráfica de cajas hecha a través de Matplotlib.
Matplotlib me da este valor, aquí puedo ver la la media que está cerca de 240 Puedo ver el cuartil inferior, el cuartil superior, el extremo inferior, el extremo superior y todos estos valores, son valores atípicos que están representados como puntos.
va a seguir trabajando con esto, yo puedo decirle a mi 'Box Plot' que me separe por sexo, utilizando el colesterol como referencia, entonces me va a dar un box plot para las mujeres y para los hombres.
va a ver cómo se vería.
En este caso en particular tengo esta box plot.
empieza a ver unas cuantas, como que, problemáticas en el título se ve muy agrupado el texto.
Pandas tiene la problemática de que al trabajar box plots y mostrarlas a través de Matplotlib empieza a verse un poco mal.
Bueno eso lo va a suplir ocupando la paquetería 'seaborn' para darle un poco más de estilo a nuestra gráficas pero, ahorita va a ver qué nos representa.
Aquí nos dice que existen 2 sexos 0 y 1, en esta Base de Datos '0' es para femenino, '1' es para masculino.
Así lo representaron los que subieron la Base de Datos a Kaggle y aquí se podra ver que en el caso de las mujeres tienen un rango de valores más grande en colesterol que los hombres que están distribuidos más agrupados pero, bueno.
va a ver cómo se vería la misma gráfica pero utilizando 'seaborn'.
Entonces importo 'seaborn' con las letras 'sns' y 'sns.boxplot' En la 'x' voy a ocupar el sexo que sería igual que en el ejemplo pasado y en la 'y' voy a ocupar el colesterol de donde provienen los datos de mi Data Frame donde yo estaba trabajando 'df', el que había inicializado desde arriba.
Entonces va a ver
¿Qué pasa?
Si le doy run fíjense como las gráficas son muchísimo más amistosas que las gráficas anteriores son más fáciles de distinguir, pero en particular estas cajas su ancho es muy exagerado a lo mejor en este esquema se ven bien pero, puede uno controlar ese tipo de parámetros.
¿Cómo?
A la instrucción simplemente se le agrega el parámetro ancho, del inglés 'width'.
Entonces al darle un width de 0.2 y darle ejecutar la misma gráfica ya la hace muchísimo más corta, e igual que como vimos en el ejemplo de los histogramas seaborn tiene cargada una forma de hacer un poco más estéticas las gráficas y los histogramas y las gráficas de cajas.
En este caso le va a pasar ese estilo con la función sns.set Vean como es un poco diferente, visualmente pero representan los mismos datos
¿Qué más se podra hacer?
Una mejora que se le puede dar a las gráficas de cajas es darles a los usuarios una idea de
¿Cómo están distribuidos los datos?
se podra decirle más o menos
¿cuántos datos están en cada parte de la caja?
por que a las personas que tienen poco conocimiento del tema a veces este tipo de esquema no les representa mucho la alternativa que nos presenta seaborn es esta función 'swarmplot' va a ver
¿Cómo gráfica swarmplot, por separado?
Comentando la línea de abajo le voy a poner un alfa de 0.5 para que sea un poco transparente y pueda sobreponer otra imagen encima pero, va a ver por separado como se ve.
Si yo doy esta gráfica, me hace estas distribuciones como...
En este caso aparecen como hojas.
Bueno, en la parte donde hay más líneas va a estar muy concentrada, va desde, muy probable que sea, la media En este caso ahora va a ver cómo se vería la pura gráfica de caja y va a volver a darle run.
La caja pues es la misma del ejemplo pasado Y ahora va a ver las dos en conjunto, quitando el comentario en ambas aquí tengo mi caja junto a su gráfica swarm, entonces ya uno puede completar el conocimiento de la caja sabiendo cuántos datos se están en cada sección de esta caja.
Por ejemplo, esta caja cerca de la media están la mayoría de los datos y en los extremos, en este extremo no hay ningún valor atípico, en este extremo tampoco pero, en la gráfica de las mujeres si hubo casos que se presentaron valores atípicos.
va a ponerle un título a esta misma imagen con la opción 'title' y por último va a salvar esta foto en nuestras carpetas para poderlas utilizar en algún informe, si le doy run sale mi gráfica con su título y en la carpeta donde está mi cuaderno debe existir este archivo 'boxplot.png', nos va a la libreta y aquí la tiene box plot me da mi imagen y ya la puedo utilizar en cualquier archivo.
Con esto repasamos rápido
¿Qué es una gráfica de cajas?
y presentamos una alternativa de cómo complementar la información de la gráfica de cajas y acrecentar lo que uno puede aprender de estas gráficas.
Por el momento es todo lo que va a hacer con esta libreta, pero te invitamos a que si tú tienes algún dato o quiere seguir experimentando con otras columnas de este Data Frame lo realices.
No hay comentarios:
Publicar un comentario