PRÁCTICA: GRÁFICAS DE DISPERSIÓN: PARTE 2
En el eje horizontal voy a poner el presupuesto el 'Budget', en el eje vertical lo que me dio de Beneficio, es decir, el Gross y aquí tengo esta 'S', ese corresponde al tamaño del punto, por la primer letra, la palabra files en inglés y le digo, el tamaño va a ser el 'ROI' x100.
De tal forma que las películas que tuvieron un ROI alto van a tener un círculo muy grande y las las películas que tienen un ROI chico van a tener un círculo un poco más chico.
va a ver como lo genera, si yo le doy run me da esta gráfica de aquí, entonces aquí ya vemos que hay películas que tuvieron mucho presupuesto, recuperaron relativamente bien pero, el valor del Dólar de esta película...
La recuperación de cada dólar que se invirtió de esta película fue menor que la recuperación que se invirtió, por ejemplo, en esta, que este círculo es muchísimo más grande que ese de aquí.
Entonces visualmente ya nos da una representación un poco más entendible pero, aún así, todos los círculos son del mismo color y no hay forma que sepamos qué película corresponde a cada círculo.
En esta gráfica en particular va a continuar trabajando con estos datos pero, ahora los va a colorear por diferentes géneros de películas.
Entonces va en esta celda, agregamos este ciclo for y le dijimos va a haber un género diferente por cada uno de los valores únicos que devuelva el Data Frame de la columna en género
¿Qué va a hacer esta instrucción?
Va a buscar todos los valores únicos de género y por cada uno de estos va a ir iterando entonces, va a generar un scatter con el primer género, otro scatter con el segundo, otro scatter con el tercero y así hasta que haya terminado con todos los géneros únicos que existen en esta Data Frame.
Esto nos da la ventaja que, por cada gráfica que se vaya haciendo en esta celda a cada una le va a ir asignando un color diferente entonces, no es necesario que yo le ponga a cada uno un color en específico sino que Python lo va a ir haciendo automáticamente asignándole un color a cada uno, aún así, yo podría cambiar eso y poner un color en específico que todas tengan el mismo color pero, va a dejarlo por el momento así.
Entonces le digo nuestra nueva variable Data, para irlo como que acortando un poquito, va a ser igual al Data Frame de cada uno de los géneros.
Entonces por el primer género específico que encuentre, voy a hacer una Sub Data o un Dato más pequeñito, nada más de ese género, entonces por decir algo todas las películas de acción van a estar aquí, después todas las películas de terror, después todas las de comedia, la romántica y silenciosamente voy a hacer una gráfica scatter en la que solamente voy a graficar el presupuesto de esta variable Data, es decir, toda la sección.
Voy a graficar el presupuesto toda la sección y la recuperación como Eje 'y' con un valor de punto de 50 Esta modificación simplemente fue para hacer más evidente la relación del rol más que en la anterior y va a ver cómo se va a ver esta gráfica.
En esta gráfica tiene 7 géneros diferentes aventura, comedia, drama, acción, animación, biográfica y de crimen y se puede empezar a generar con algunas conclusiones preliminares y se podra ver "Ah las películas de acción tienen un presupuesto muy alto" y estas películas de presupuesto alto tienen una recuperación en taquilla alta pero, si se dan cuenta el valor de los circuitos de las películas de acción son pequeños.
Eso significa que el ROI de esas películas la tasa de recuperación es chica.
Cada uno de estos muchos dólares genera pocos dólares a comparación.
A qué me refiero si se dan cuenta en este círculo Azul muy grande que está aquí de aventura con poco dinero, generó mucha recuperación en taquilla.
El ROI de este punto es mucho más grande porque los dólares, por llamarlo de alguna forma, los dólares con los que se creó se aprovecharon mejor que los dólares con los que se creó esta película.
Bueno, va a continuar con esta información y va a ver
¿Qué se podra hacer con esta?
va a darle play, esta parte de mi código es exactamente la que tenía la celda anterior entonces se va a generar la misma gráfica pero se le va a incluir esta sección, va a ver qué hace esa sección.Le damos play nos crea ahora la misma gráfica y aquí las se podra comparar
¿En qué cambio?
Bueno ocupe esta variable, este ciclo for, con la palabra Handle en inglés, una traducción aproximada sería Rótulo.
Entonces le voy a decir para cada rótulo, en mi rótulo del cuadro de leyenda, les voy a asignar un valor de 100 y si se dan cuenta los círculos del cuadrito de leyenda aquí están en un tamaño uniforme a diferencia de los círculos del tamaño y leyenda anterior donde eran de acuerdo a uno de los ROI que manejó en esa gráfica.
Entonces simplemente están estas instrucciones y fueron para estandarizar un poco el tamaño de estos puntos lo cual, le da un valor visual un poco más llamativo a nuestra gráfica.
va a continuar, en nuestra siguiente celda tiene el mismo código de la celda anterior, entonces se va a generar una gráfica muy similar a la anterior pero, se le incluyeron unas cuantas cosas.
va a ver
¿Qué hace cada una de ellas?
Se le incluyó la instrucción 'matplotlib.ticker' y eso nos va a dar la facilidad de poderle asignar títulos y formatos a los diferentes ejes, para eso primero definimos una función, definida completamente por nosotros.
Esa función se llama 'millones'
¿Y qué va a hacer?
Va a tomar un valor numérico y la va a devolver en un formato de al menos un número antes del punto decimal acompañado a la palabra millones con el formato de un exponente '- 6' y lo va a cambiar de la forma tradicional de escritura, a la notación científica de millones.
va a darle play y ahora si nuestros ejes ya tienen muchísimo más sentido que antes, antes tenían estos valores 0.5, 0.75 pero,
¿Qué era eso?
Ah, millones de dólares.
50 Millones, 75 Millones, 100 Millones y así sucesivamente esa información y ahora si ya tiene bastante sentido para nosotros.
Ya se podra ver y decir "Ah ok, esta película me costó unos 250 millones de Dólares producirla y me generó casi 900 casi cercano a los 1,000 Millones de Dólares" Bueno, nuestro siguiente Ejemplo, siguiendo esa convención es la misma gráfica pero le va a ir agregando otro factor más
¿Que fue lo nuevo?
Esta sección es exactamente lo mismo.
Entonces hasta aquí se me va a generar una gráfica con cada género de un diferente color, con una leyenda, con los mismos ejes.
¿Qué es lo nuevo?
Bueno, yo voy a encontrar cuáles fueron las mejores películas dependiendo la recuperación que tuvieron en taquilla.
El orden de ascendente se puso en 'Falso' porque lo que encontraríamos si ese orden ascendente fuera 'Verdadero' sería de la Peor a la Mejor, del Menor al Mayor, al ponerle 'Falso' estamos girando eso, estamos encontrando del Mayor al Menor y en particular no le voy a poner nombre a todos porque saturaría la información de mi gráfica y a lo mejor las etiquetas se verían feas, una encima de otra, le voy a pedir que me dé nada más las 5 Mejores Películas dependiendo de su Regreso en taquilla.
Entonces voy a buscar esas 5 Mejores Películas y en mi gráfica las voy a anotar, el nombre
¿En donde?
Bueno en donde su budget y su recuperación en taquilla nos den en la coordenada, es decir, en el punto del escatter.
Si le doy run, me da aquí mi gráfica y a las 5 Mejores Películas que tuvieron más recuperación de taquilla me puso estos títulos.
Aquí tiene, Por Ejemplo: 'Star Wars: The Force Awakens' como una de las películas que más recuperaciones en taquilla tuvo, 'AVATAR', 'Avengers', 'Titanic' y 'Dark Knight' es por mencionar algunas, coincidencialmente 4 de esas fueron de Acción, como la tendencia que habíamos comentado que era así visual pero, no significa que tuvieron el mayor ROI.
Hay unas que tuvieron más ROI.
Puedo repetir esto y cambiarlo a que en el criterio para bautizar los 5 Mejores Puntos no sea el Gross, sino el ROI, simplemente cambiando aquí a la variable ROI o el Budget, por Ejemplo.
Bueno, nuestro último Ejemplo igual que en el vídeo de Gráficas de Línea es un Ejemplo mucho más grande, un poco quizás más complicado pero, no se desanimen.
Traten de leer cada línea por separado, Traten de hacer sus suposiciones de que va a ser y les muestro qué hace y se las explicó de una manera rápida.
Si yo le doy run, yo aquí puedo ver esta gráfica un poco más grande con más títulos pero siguen siendo los mismos datos.
Aquí
¿Qué cambio?
agregamos esta función donde le digo el tamaño de la figura.
Yo puedo darle manualmente el tamaño para evitar que se hagan figuras pequeñas y se haga una más grande y un poco más entendible.
Otra cosa que cambio es que nuestra gráfica anterior no teníamos título pero, en esta sí.
Entonces ahora ya tengo esta, las películas que Mayor Recuperación en taquilla nos devolvieron en el 2016.
Simplemente con esta instrucción 'plt.title' aquí yo asigno que quiero que salga de título y 'plt.xlabel' le da el nombre al eje 'x' y 'plt.ylabel' nos da el nombre de el eje 'y'.
Aquí está la ganancia en taquilla, la inversión inicial, el título y están todos nuestros datos.
Te invito a que busques una base de datos de tu interés ya sea en Kaggle o en alguna Base de Datos que tú tengas y trates de hacer tu propia gráfica de dispersión.
En los siguientes vídeos veremos otro tipo de Visualización de Datos y continuaremos utilizando Python para realizar cada uno de ellos.
No hay comentarios:
Publicar un comentario