LEYENDO DIFERENTES TIPOS DE FUENTES
Se vio cómo utilizar Pandas para leer conjuntos de datos.
Ahora van a leer un archivo diferente que son los archivos de excel.
Entonces, para ello van a utilizar un cuaderno de Python llamado "diferentes tipos de archivos con Pandas".
Es un cuadro muy chiquito, entonces sólo es una breve introducción a cómo van a leer diferentes tipos de archivos.
Se utiliza: import pandas as pd.
Se recuerda que esta es una convención el pd, no es necesario pero es una forma agradable de llamar a utilizar Pandas.
Le damos pd.red_csv y lo lee sin ningún problema.
Ahora, pero hay conjuntos de datos donde el índice que se tiene aquí para las líneas ya está marcada en el conjunto de datos.
Entonces van a modificarlo para ver la diferencia de cómo se debería leer.
Para ello ir a la carpeta de archivos donde se tiene cuadernos y data.
Lo van a abrir con la aplicación de excel para poderlo modificar rápidamente.
Entonces van a agregar una columna que van a ser el índice.
No le se pone ningún título y lo van a completar, si nosotros se selecciona los primeros dos renglones y le damos clic en el cuadritos se van a autocompletar.
van a guardar y van a sobreescribir en el archivo.
Nos van a preguntar si lo que se quiere sobreescribir y simplemente le damos que sí.
Ahora ya no se necesita excel, van a cerrarlo.
Ahora el archivo ya debería estar modificado se puede abrirlo con un lector de notas para verificarlo y ahí está, se tiene el índice 1, 2, 3, y se tiene el primer elemento separado por una coma.
Si se lee esta columna que se acaba de agregar.
Nos la van a marcar como que le falta un valor, un nombre de columna, y aparte nos dio un índice que no es el original que tenía el archivo.
Entonces cómo se arregla eso, bueno, para ello van a ver la documentación de Pandas.
Es lo más importante que debemos estar haciendo a la hora de resolver problemas que no se sabe.
Entonces van a abrir el navegador y van a escribir read_csv y agregar Pandas.
Entonces lo primero que van a mostrar es la documentación.
Si le da click van a empezar a dar todos los parámetros que se puede utilizar, en la función read_csv, y una muy importante es la llamada index_col.
index_col le dice a Pandas cuál de las columnas van a ser utilizada como índice.
Entonces le va a decir que index_col.
index_col es igual a la columna número 0.
Ahora Pandas no leen únicamente de archivos csv, también se le permite leer a través de archivos de excel y la función para ello cambia de csv a excel, es muy sencillo.
Ahora el archivo que van a leer xlsx, que es la extensión de todos los archivos de excel.
Va a leerlo y va a decir aquí que hay un caso similar donde la primera columna es el índice y lo está leyendo mal, entonces de forma similar se puede utilizar el index_col y le se dice que la columna es la 0.
Si se fijan no se termina de escribir el parámetro index_col, simplemente escribí index y el tabulador, tabulador es la tecla que está al lado de la Q, del lado izquierdo, y él les van a autocompletar directamente.
A parte de estos métodos de read_csv y read_excel existen otros archivos que Pandas lee con una facilidad muy grande, y esos archivos los puede ver en la documentación oficial.
Si se fijan aquí al lado izquierdo viene input, output y dice todos los tipos de archivos que puede leer.
Entre los más populares está el csv, el excel, se puede leer de páginas web, puede leer SQL que es el lenguaje para consultas a base de datos e incluso, servicios más recientes como es el google BigQuery que vera más adelante.
Entonces, esta introducción de cómo se puede manipular Pandas para leer diferentes tipos de información y hacerlo de una manera muy intuitiva.
No hay comentarios:
Publicar un comentario