2022/07/23

S1 Tipos de Datos y Estructuras de Control

TIPOS DE DATOS Y ESTRUCTURAS DE CONTROL 

El constante incremento de la complejidad del entorno y el continuo flujo de información nueva, son los principales retos actuales que se presentan al analizar información.

Una estrategia que las ciencias utilizan para contrarrestar dichos obstáculos es la Creación de Modelos, capaces de representar la realidad de una manera abstracta.

Dentro del área de 'Data Science' nuestra realidad es representada como un conjunto de datos que se busca analizar para identificar solamente la información más relevante del problema que se pretende resolver.

Antes de entrar al Manejo de Datos se debe de familiarizar con algunos términos básicos del área.

La palabra "Data" dentro de nuestro contexto de 'Data Science' representa una colección de medidas.

Un 'Data Point', también conocido como 'Observación', hace referencia a las instancias individuales de datos, mientras que, un 'Dataset' es un conjunto estructurado de 'Data Points'.

Cada Data Point puede contener múltiples tipos de información o 'Data Types', números, textos, fechas.

Cuando agrupamos los Data Points según estas características, observaciones que tienen las variables del 'Data Pool'.

Ilustrar esos conceptos apoyándose en el Siguiente Ejemplo: Imagine que se quiere encontrar si existe una relación entre 'Las Horas de Sueño de un Conjunto de Alumnos' y sus 'Calificaciones'.

Entre los datos que se tiene a la disposición para realizar la investigación, resaltan 'La edad', 'Las horas de sueño', 'Las horas de estudio' y 'Las calificaciones finales' obtenidas por múltiples alumnos.

La Data en este caso, se refiere a toda la información recolectada, de los alumnos en el estudio son los diferentes 'Data Points', cada tributo de los Data Points son las variables y en el Data Frame, es toda la Data Organizada de manera Tabular.

Si se observa cada una de las columnas, tiene información referente a los alumnos, se tienen valores numéricos como lo es 'la edad', 'las horas de sueño' y sus 'calificaciones' pero, además se tienen 'nombres de personas', que son representados por cadenas de caracteres.

Continuemos analizando un Segundo Ejemplo: Ahora imaginemos que se trabaja en un banco, y se quiere determinar si una persona es 'Apta' o 'No' para Recibir un Préstamo.

Las variables que se podrían conocer acerca de la persona son datos como: 'Su edad', 'Su género', 'El historial crediticio' que esta persona tiene, 'Su antigüedad como nuestro cliente', entre otras de posible relevancia.

Todas estas variables así como las utilizadas en el ejemplo de los alumnos se pueden clasificar en los siguientes cuatro tipos básicos las variables: numéricas categóricas ordinales y las de texto

Primero se hablara de los datos numéricos es decir todos aquellos datos que pueden ser representados por un número estos datos se subdividen en dos tipos los discretos y los continuos.

Los 'Datos discretos' son aquellos que se pueden cuantificar con valores enteros por ejemplo el número de alumnos, las unidades vendidas por un vendedor, el número de compra de un usuario e incluso el resultado de tirar un dado.

Por otro lado existen: Los Datos 'Continuos', los cuales utilizan números con punto flotante.

Por Ejemplo: La Estatura de una Persona, La Temperatura, El Tiempo de Espera para Pasar a la Ventanilla de un banco, Los Salarios, Entre Otros.

Una manera sencilla de distinguir entre 'Variables Discretas' y 'Continuas' es preguntar si la variable se puede 'Contar' o se puede 'Medir'.

En caso de que sea contada, es una 'Variable Discreta' y en caso de que se pueda medir es una 'Variable Continua'.

Los datos categóricos son aquellos que están asociados a las cualidades del objeto de estudio.

Por Ejemplo: El género de una persona, El color de un objeto, La raza, El estado de residencia, entre otros.

A los elementos de una lista de datos categóricos se les puede asignar un valor entero para manipularlo de una manera sencilla pero esta numeración, no debe representar un orden jerárquico, es decir, ningún elemento tiene más importancia que otro.

Un ejemplo que ilustra lo anterior es una lista donde a cada color le asignamos un número de forma aleatoria, "1" para el color 'Rojo', "2" para el color 'Azul', "3" para el color 'Verde' y así sucesivamente para otros colores.

Recordemos que la numeración no indica que un color sea más importante que otro solamente ayuda a distinguir que hay elementos diferentes entre ellos.

Los Datos Ordinales son Datos categóricos, ordenados jerárquicamente, esto sucede cuando se evalúa a los conductores de Uber, la asignación de una calificación de una película o la calificación de los productos que se compran por Internet.

Donde uno evalúa los productos se utiliza palabras como Bueno o Malo.

El usuario sabe que un producto es Bueno y que es superior a un producto evaluado como Regular o como Malo.

Por último, los datos de Tipo Texto son los datos que podemos observar usualmente en 'Comentarios', 'Publicaciones' o 'Tweets'.

Como su nombre lo indica, son campos de texto sin una estructura establecida.

Este tipo de datos se vera más adelante.

No hay comentarios:

Publicar un comentario

S4 Cierre

Cierre Semana 4 Muchos de los problemas actuales a los que se enfrenta un científico de datos involucran el manejo de grandes cantidades de ...