Ciencia Datos Python: S2 Usando Beautifulsoup

USANDO BEAUTIFULSOUP

Para la Web Browser abrir el navegador y manejar en diferentes pestañas, se utiliza la librería Request y para descargar información desde Internet.

Para utilizar la librería "Beautiful Soup".

Beautiful Soup es una ayuda para entender las páginas Web directamente sin tener que descargar los datos y sobre todo, leer páginas en las que no es posible descargar un archivo directamente.

Abrir la libreta beautiful soup.

Se encuentra en la carpeta que ha estado usando, en mi caso está en el escritorio, en su caso estará donde hayan descargado los archivos anexos.

Entonces, abrir el archivo beautiful soup.

Entonces, el caso de estudio, van a ver qué pasaría si se quiere leer la información de Wikipedia.

En específico las películas con mayor recaudación de la historia.

Esta es la página web que se tiene seleccionada, y se tiene, si se fijan, un archivo o más bien un documento de Wikipedia.

El documento de Wikipedia tiene un poco de historia, habla de la película 'Avatar' por ejemplo.

Entonces tiene mucho texto, tiene algún índice que es una tabla y aquí empiezo a tener ya más tablas, ya con la información que se quiere extraer.

Entonces, ¿cómo le hace para obtener esta información?

Si se analiza como si fuera Yahoo finance, se buscaría un archivo de descarga, pero en ninguna parte de todo el artículo de Wikipedia viene una descarga.

Entonces, ¿cómo le hace? Ahí es donde entra Beautiful Soup.

Beautiful soup lo que van a hacer es: leer esa página a través de la librería Request y le van a tratar de entender y adaptarlo a una forma en la que nosotros se puede manipular de forma directa.

Entonces, van a utilizar otra vez Request.

Request, obtiene la página.

Con eso se puede imprimir el texto que se acaba de leer con un res.text.

res.text viene toda esta información que no es entendible a nosotros a primera vista.

¿Dónde viene? Bueno, si se regresa a la página de Wikipedia y le da inspeccionar verá que se empieza a seleccionar partes de la página web.

Este es código html.

Tal vez no es entendible para todos si no se tiene experiencia en él pero aquí viene la codificada de toda la información de la página.

Entonces, request lo que hace es imprimir toda esa información que esta leyendo de la página.

Entonces, hay que manipularlo de alguna forma, entra beautiful soup.

Lo importamos de beautiful soup, import beautiful soup, y lo va a devolver en la variable bs4.

¿Por qué? Porque es la versión 4.

Entonces, va a decir beautiful soup, y le van a pasar como parámetros el resultado anterior, el request, y lo va a guardar en la variable soup.

Esto va a enviar la información de Wikipedia, la va a analizar y la va a estructurar de una forma en la que se pueda empezar pedir los elementos que se requiere.

En particular estas tablas de aquí, si le damos clic derecho vienen en unos elementos llamados table.

Table es lo que va a manejar toda la información que se quiere extraer.

Entonces se le se puede decir "beautiful soup, dame todas las tablas", y lo guarda en la variable table.

Entonces si se imprime empieza a dar un montón de información.

Si se fijan ya está un poquito más estructurado a diferencia que nada más que es un montón de texto que no tiene forma y aquí ya nos empieza a decir, por ejemplo, si me voy hasta arriba nos dice "película", "distribuidora", "taquilla", "recaudación mundial", todo esto son las columnas, el títulos de la columna y toda la información que se quiere y lo está dando beautiful soup.

Entonces, ¿cómo se puede procesar para entenderlo de una manera visual? Bueno, ahí es donde van a utilizar una librería que ya hemos estado usando llamada Pandas.

Con Pandas lo que va a hacer es importar y le va a decir "lee este código o este html", que es con lo que se fabrican las páginas web, y precisamente eso es lo que tiene beautiful soup en su información, es lo que esta construyendo.

Entonces le van a decir "Pandas, lee html" y le va a pasar "table".

Entonces le va a tardar un poquito en procesarlo porque está cargando Pandas, y ahora sí, ya está.

Ahora, esto a diferencia de las funciones que se ha utilizado como read csv o read excel, en realidad da una lista de data frames.

¿Por qué? Bueno, porque puede ser que la página en realidad esta pasando múltiples tablets, no nada más una, entonces va a crear un data frame para cada una de las tablas que encuentre en la página.

En el caso de la página de Wikipedia, por aquí se tiene una tabla, aquí se tiene otra tabla, otra tabla, otra y así continúa.

Entonces, hay múltiples tablas en ese documento, por lo tanto no va a analizarla, nada más la primera.

Entonces le van a decir "dame el primer data frame y lo renombramos como df"

Y ese se va a imprimir.

Y ahí está, está dando el índice de la película, el nombre de la película, la distribuidora de taquilla, y ya está dando en forma estructurada, y lo obtiene la librería Pandas y va a facilitar todo lo que es eliminar columnas, eliminar filas, filtrar datos, entonces ya lo tiene de una manera muy organizada para nuestra utilidad.

Con eso concluye la unidad, en la siguiente unidad vera cómo manipular la información que tiene en Pandas para poder eliminar información repetida, limpiar información que no funciona para el análisis y poderla manipular para dejarla lista para poder hacer un modelado de información.

Ciencia Datos Python

2022/07/25

S2 Usando Beautifulsoup

USANDO BEAUTIFULSOUP

No hay comentarios:

Publicar un comentario

S4 Cierre