TRABAJANDO CON SERIES
Lo que es una serie de tiempo en realidad es una extracción de una columna de un conjunto de datos, pero puede servir para representar casos a través del tiempo.
Por ello el nombre de series de tiempo.
Pueden ser simplemente cosas que vayan de forma incremental o hay un orden preestablecido.
Abrir el cuaderno de Python llamado "Series" y va a ir a Jupyter, y lo abre directamente.
Una vez cargado, va a leer un poco lo que es la serie de tiempo.
Una serie de tiempo es el conjunto de datos estadísticos observados y recopilados durante intervalos regulares de tiempo, tratando siempre de conservar que sean los mismos intervalos entre dato y dato.
Por ejemplo, en una serie financiera sería tal vez cada hora, cada día, cada mes, pero siempre que sea el mismo intervalo.
Hay veces donde no se puede garantizarlo, por ejemplo, hay series financieras donde descansan sábados y domingos, entonces hay un salto de lo que sería diariamente de lunes a viernes y hay un salto del viernes al lunes.
Pero siempre se trata de conservar ese intervalo de tiempo.
La información puede ser registrada de forma diaria, semanal, semestral o en un intervalo definido por el investigador.
Aprenderá a trabajar con series utilizando la librería Pandas.
Va a utilizar import pandas as pd como lo ha utilizado regularmente y utilizar la función llamada "read_csv".
Esto va a permitir cargar el conjunto de datos en Pandas.
Va a utilizar el conjunto de datos llamado "enfermedades del corazón" y asignar sobre la variable "df".
Luego se ejecuta y se puede visualizarlo a través de "df.head".
Para ejecutar se utiliza shift+enter.
También lo pueden desde acá arriba pero a mí me gusta porque es una forma cómoda de hacerlo.
Aquí se tiene un conjunto de datos, se tiene la edad, el sexo, entre otros datos.
Una serie en realidad lo que es, en el contexto de Pandas, una de estas columnas.
Si se selecciona "df.age", o edad, e se imprime la cabecera nos van a decir que el primer dato es 63, 37, 41, 56 , luego 57.
Nos imprimió 5 datos porque esta usando la función head que viene por default dar 5 valores o predeterminado.
Entonces aquí nos van a decir que esta serie se llama "edad", como se llamaba en el conjunto de datos, es del tipo entero.
Se puede verificar que sea una serie utilizando la función "type" o tipo, y va a pasar como parámetros "s", que es la serie de tiempo que se acaba de guardar.
Y efectivamente dice que Pandas, de su núcleo de operadores, existe una serie y este elemento de aquí, la "s", pertenece a una serie.
Entonces nos está diciendo efectivamente que es una serie.
La forma más fácil de contextualizar la serie de tiempo o la serie dentro del machine learning es ubicarlo como si fuera una columna en un conjunto de datos y generalmente al hablar de series de tiempo, en vez de que éste sea un índice de 0, 1, 2, 3, sea una fecha.
La fecha es un poquito más difícil de trabajar, ya estará viendo más adelante.
Pero simplemente van a considerarlo como si fuera una columna.
A partir de esto se puede decir "dame la media, el máximo, el mínimo y describe de la serie" que da todos los valores más los inter cuartiles.
Se puede resumir una serie de tiempo como una secuencia de datos, observaciones o valores medidos en determinado momento y ordenados cronológicamente, y se puede visualizar como una columna de un conjunto de datos, al menos en Pandas.
También permite graficarla.
Va a usar matplotlib, que van a gráficar dentro del mismo cuaderno, y grafica plot, la variable "s".
Lo que van a producir este conjunto de datos donde se tiene como "x" el índice y como "y" la edad.
La edad salta por todos lados, ¿por qué? porque no esta ordenado por edad pero esto da una introducción a cómo podríamos graficar una serie.
Espero les de una pequeña idea de lo que es una serie, que es en realidad algo muy sencillo de utilizar y la verdad es algo que se encuentra dentro de un data frame.
Generalmente va a estar utilizando los conjuntos de datos totales y no estas columnas individuales pero es bueno conocer ese concepto.
No hay comentarios:
Publicar un comentario