Herramientas de usuario

Herramientas del sitio


ai:data_analysis

¡Esta es una revisión vieja del documento!


Análisis de datos

Nociones básicas

Conceptos

  • Atributos, ver variables.
  • Resultado dicotómico, dos posibilidades.
  • Variables también denominadas atributos.

Medidas

Entropía

Es la medida de desorden o incertidumbre.

Inercia

Medida de homogeneidad (o parecido) entre puntos en una nube de puntos. A menor inercia, menor varianza. A más inercia, más información esparcida y puntos más separados.

Lift

Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0 ({20%}/{5%}).

Variables

Tipos de variables

  • Numéricas: Corresponden a valores que pueden ser expresados por números, ya sean estos enteros, reales, naturales… Son ordenables (número de hijos, edad…). Podríamos denominarlas cuantitativas y a la vez discretas (cuando toman valores enteros) o continuas (cuando son intervalos).
  • Categóricas: No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco…). Una subcategoría de estas serían las binarias que sólo pueden tomar dos valores.
  • Intervalos: Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años…). También podríamos llamarlas cuantitativas continuas.

Relación entre variables

Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados…

Relación lineal entre variables cuantitativas

Para medir la intensidad o grado de dependencia entre dos variables aleatorias cuantitativas (X e Y) calcularemos el coeficiente de correlación (calcula la relación lineal entre ellas).

Relación entre variables categóricas y numéricas

Utilizaremos la fórmula de la χ² (y si son numéricas las convertiremos a estas).

Relación de variables continuas

A partir del test de la F de Fisher.

Dependencia entre variables

Dependencia entre variables continuas

Buscaremos el p-valor a partir de la t de Student.

ai/data_analysis.1318592477.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)