Tabla de Contenidos

Análisis de datos

Nociones básicas

Conceptos

Medidas

Dispersión

El grado de distanciamiento de un conjunto de valores respecto a su valor medio.

Entropía

Es la medida de desorden o incertidumbre.

Inercia

Medida de homogeneidad (o parecido) entre puntos en una nube de puntos. A menor inercia, menor varianza. A más inercia, más información esparcida y puntos más separados.

Lift

Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0 ({20%}/{5%}).

Variables

Tipos de variables

Relación entre variables

Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados…

Covarianza

Indica qué relación hay entre dos variables:

Relación lineal entre variables cuantitativas

Para medir la intensidad o grado de dependencia entre dos variables aleatorias cuantitativas (X e Y) calcularemos el coeficiente de correlación (calcula la relación lineal entre ellas).

Relación entre variables categóricas y numéricas

Utilizaremos la fórmula de la χ² (y si son numéricas las convertiremos a estas).

Relación de variables continuas

A partir del test de la F de Fisher.

Dependencia entre variables

Dependencia entre variables continuas

Buscaremos el p-valor a partir de la t de Student.

Representación en distintos espacios

Un espacio es un método de representación de datos; existen los siguientes espacios:

PCA

También denominado ACP (análisis de componentes principales).

MCA

También denominado ACM (análisis de componentes multiples).

Estadística Bayesiana

Es una forma alternativa de calcular probabilidades.

Estadística clásica

La estadística clásica también es llamada frecuentista debido a que necesita de un gran número de experimentos. En cambio la estadística bayesiana permite interpretar la probabilidad de un hecho a partir de unos grados de ignorancia; formando reglas sin tener que realizar un gran número de pruebas y con un grado de confianza. Además la estadística clásica no es útil en situaciones donde la prueba no puede ser repetida (p.ej. el cálculo de la probabilidad del tiempo mañana…), se expresa en términos del estilo “en 8 de 10 casos donde hemos observado X condiciones esperamos Y”.

P(A|B) nos dice la probabilidad de A asumiendo que B es cierta y se calcula:
P(A|B) = {P(A inter B)} / {P(B)}
P(A∩B) es la probabilidad conjunta (joint probability) de encontrar A y B.
Un ejemplo: sabemos que el 10% de los hombres son daltónicos y que menos de el 1% de las mujeres son daltónicas, por lo que tenemos lo siguiente:

Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05).

Bayes

Partiendo del teorema de Bayes que es:
P(A|B) = {P(B|A)P(A)} / {P(B)}
Si queremos determinar un parámetro a través de un experimento con Bayes miraríamos:

  1. B: Ocurrencia del experimento en las observaciones.
  2. A: El parámetro cogiendo el valor x.

Podríamos mirarlo sin denominador, este, al fin y al cabo, es una constante y no depende del parámetro que deseamos determinar:

P(param|data) = P(data|param)P(param)

Un ejemplo...

Un experimento sería lanzar una moneda 10 veces. Imaginemos que obtenemos 7 caras (H) y 3 cruces (T): THHHHTTHHH
Queremos saber si la moneda es fiable o no. Para ello debemos calcular la probabilidad (p) de H (por ejemplo) el cual sería el parámetro. Si la moneda es fiable p sería 1/2. Neceistamos una likelyhood que podría ser:

Escogeremos nuestra probabilidad preivia como P(p) = 1 para toda p.
En este problema el número de T y de H es lo importante, no el orden de estas por lo que no necesitamos calcular combinaciones ni permutaciones.
Tenemos pues que… P(p|{7H3T}) = p⁷·(1-3)³ = P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(1-p(T))·P(1-p(T))·P(1-p(T)). Ahora podemos ver que el valor más probable está cerca del 0.7 y que, a medida que el número de intentos aumenta este valor es más “seguro”:

Si hay pocos valores el likelyhood hace que la distribución sea más plana y probabilidad posterior es influida por la anterior. En cambio, si hay muchos valores el likelyhood coge fuerza y cada vez se acorta más el rango de p.

Estadística bayesiana como modelo

El resultado de realizar el test con Bayes es una distribución de por sí, es decir, una hipótesis. Como tal podemos construir un intervalo de confianza para p. La estadística bayesiana trata fácilmente con datos inexistentes (missing data), tatos en el tiempo, data sets hetereogeneos… Porque es una distribución, y como tal puede ser utilizada como input para un nuevo modelo jerárquico.