2022/07/24

S2 Obteniendo Datos de Kaggle

OBTENIENDO DATOS DE KAGGLE

Hola, se empieza por obtener los datos, que se van a leer con el software Pandas.

Para ello va a utilizar una plataforma en línea llamada Kaggle.

Allí están van a ver todos los data sets disponibles, lo seleccionan y lo descargan para empezar a manipularlos con el software.

Para ello va a utilizar el navegador web.

Por ejempo Google Chrome pero son libres de utilizar cualquier navegador que deseen, y para ello va a utilizar kaggle.

Esta plataforma kaggle da lugar a una comunidad muy grande de científicos de datos.

En ella se comparte sus conjuntos de datos, problemas y tratan de dar solución a esos mismos conjuntos de datos con alguna problemática en común.

Esto es un muy buen recurso para tratar de demostrar qué tanto se puede hacer con tus proyectos de data science.

Incluso hay concursos en los que hay premios en efectivo.

Por el momento lo van a utilizar para descargar datos.

Entonces, va a filtrar el conjunto de datos a través del más votado.

Generalmente estos son los que más se utilizan y más se prueban para data science.

Entonces, en el caso que esta aprendiendo va a seleccionar los primeros.

Seleccionar el segundo que es de la universidad de Cleveland y es un estudio sobre enfermedades del corazón.

Dice que el data set contiene catorce atributos importantes y esta base de datos pertenece a universidad de Cleveland.

Entonces, la meta de este conjunto de datos es detectar la presencia de una enfermedad cardíaca o no en un paciente.

Y aquí se tiene algunos atributos, siempre es importante empezar a verlos.

En primer lugar está la edad, el sexo, el tipo de dolor de pecho, presión arterial en reposo, etcétera.

En este caso en particular sólo se encuentra un archivo, el heart.csv, viene información de este archivo y las columnas del archivo.

Y se puede tener un preview, o una vista previa de los datos.

Entonces va a descargarlos.

Una vez descargado el archivo se puede darle clic en mostrar carpeta, nos va a dar la ubicación de el archivo.

Este es un archivo comprimido, entonces le se puede dar doble clic y aquí esta el archivo que realmente se necesita.

Que la extensión de él es .csv, es decir, "comma separated values".

Dentro del archivo va a notar que los valores numéricos están separados por comas, de ahí viene el nombre.

Entonces, lo va a copiar y lo va a pegar a una ubicación en la cual se lo pueda leer.

No hay comentarios:

Publicar un comentario

S4 Cierre

Cierre Semana 4 Muchos de los problemas actuales a los que se enfrenta un científico de datos involucran el manejo de grandes cantidades de ...