¡Esta es una revisión vieja del documento!
Análisis de datos
Nociones básicas
Conceptos
Atributos, ver variables.
Resultado dicotómico, dos posibilidades.
Variables también denominadas atributos.
Medidas
Dispersión
El grado de distanciamiento de un conjunto de valores respecto a su valor medio.
En una distribución la medida de dispersión es la desviación típica o standard, σ. También suele usarse la varianza (la desviación típica al cuadrado), σ² , no se tiene en cuenta el signo y, a la vez, se acentúan las diferencias.
Entropía
Es la medida de desorden o incertidumbre.
Inercia
Medida de homogeneidad (o parecido) entre puntos en una nube de puntos. A menor inercia, menor varianza. A más inercia, más información esparcida y puntos más separados.
Lift
Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0
.
Variables
Tipos de variables
Numéricas: Corresponden a valores que pueden ser expresados por números, ya sean estos enteros, reales, naturales… Son ordenables (número de hijos, edad…). Podríamos denominarlas cuantitativas y a la vez discretas (cuando toman valores enteros) o continuas (cuando son intervalos).
Categóricas: No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco…). Una subcategoría de estas serían las binarias que sólo pueden tomar dos valores.
Intervalos: Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años…). También podríamos llamarlas cuantitativas continuas.
Relación entre variables
Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados…
Relación lineal entre variables cuantitativas
Para medir la intensidad o grado de dependencia entre dos variables aleatorias cuantitativas (X e Y) calcularemos el coeficiente de correlación (calcula la relación lineal entre ellas).
Relación entre variables categóricas y numéricas
Utilizaremos la fórmula de la χ² (y si son numéricas las convertiremos a estas).
Relación de variables continuas
A partir del test de la F de Fisher.
Dependencia entre variables
Dependencia entre variables continuas
Buscaremos el p-valor a partir de la t de Student.
Representación en distintos espacios
Existen los siguientes espacios:
Espacio euclídeo: Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en planos.
Espacio vectorial: Los elementos de este espacio son vectores desde un punto a otro.
Espacio factorial: Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes…) entre ellas.