¿QUÉ ES LA LIMPIEZA DE DATOS?
Los principales retos a los que se enfrenta un científico de datos es la de la manipulación de bases de datos con un tremendo volumen de información debido a que muchas veces el exceso de la información puede deberse a que existen datos repetidos datos incorrectos o datos anómalos.
Es necesario que el científico aprenda a identificar correctamente los datos verdaderamente importantes pues facilita el entrenamiento de modelos predictivos y la generación de conclusiones.
Antes de que se puede comenzar a analizar y manipular los datos extraídos de cualquier tipo de fuente de información es necesario realizar una apropiada limpieza de datos.
En este curso aprenderemos a identificar, y posteriormente, omitir o eliminar todos aquellos datos que sean considerados incorrectos inexactos o no pertinentes para el caso de estudio.
El llevar a cabo el proceso de limpieza de datos nos permite asegurar la calidad de los datos que procesaremos, nos ahorra espacio de almacenamiento y nos asegura un proceso de toma de decisión correcta.
No hay comentarios:
Publicar un comentario