Herramientas de usuario

Herramientas del sitio


ai:data_analysis

¡Esta es una revisión vieja del documento!


Análisis de datos

Nociones básicas

Conceptos

  • Atributos, ver variables.
  • Resultado dicotómico, dos posibilidades.
  • Variables también denominadas atributos.

Medidas

Dispersión

El grado de distanciamiento de un conjunto de valores respecto a su valor medio.

  • En una distribución la medida de dispersión es la desviación típica o standard, σ. También suele usarse la varianza (la desviación típica al cuadrado), σ² , no se tiene en cuenta el signo y, a la vez, se acentúan las diferencias.

Entropía

Es la medida de desorden o incertidumbre.

Inercia

Medida de homogeneidad (o parecido) entre puntos en una nube de puntos. A menor inercia, menor varianza. A más inercia, más información esparcida y puntos más separados.

Lift

Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0 ({20%}/{5%}).

Variables

Tipos de variables

  • Numéricas: Corresponden a valores que pueden ser expresados por números, ya sean estos enteros, reales, naturales… Son ordenables (número de hijos, edad…). Podríamos denominarlas cuantitativas y a la vez discretas (cuando toman valores enteros) o continuas (cuando son intervalos).
  • Categóricas: No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco…). Una subcategoría de estas serían las binarias que sólo pueden tomar dos valores.
  • Intervalos: Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años…). También podríamos llamarlas cuantitativas continuas.

Relación entre variables

Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados…

Relación lineal entre variables cuantitativas

Para medir la intensidad o grado de dependencia entre dos variables aleatorias cuantitativas (X e Y) calcularemos el coeficiente de correlación (calcula la relación lineal entre ellas).

Relación entre variables categóricas y numéricas

Utilizaremos la fórmula de la χ² (y si son numéricas las convertiremos a estas).

Relación de variables continuas

A partir del test de la F de Fisher.

Dependencia entre variables

Dependencia entre variables continuas

Buscaremos el p-valor a partir de la t de Student.

Representación en distintos espacios

Existen los siguientes espacios:

  • Espacio euclídeo: Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en planos.
  • Espacio vectorial: Los elementos de este espacio son vectores desde un punto a otro.
  • Espacio factorial: Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes…) entre ellas.
ai/data_analysis.1318601831.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)