Herramientas de usuario

Herramientas del sitio


ai:data_analysis

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ai:data_analysis [2011/10/14 14:19]
alfred
ai:data_analysis [2020/05/09 09:25] (actual)
Línea 27: Línea 27:
   * **Categóricas**:​ No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores.   * **Categóricas**:​ No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores.
   * **Intervalos**:​ Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**.   * **Intervalos**:​ Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**.
 +
  
  
Línea 35: Línea 36:
 ==== Relación entre variables ==== ==== Relación entre variables ====
 Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados... Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados...
 +
 +=== Covarianza ===
 +Indica qué relación hay entre dos variables:
 +  * Si ''​Sxy > 0''​ hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y.
 +  * Si ''​Sxy = 0''​ se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
 +  * Si ''​Sxy < 0''​ hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.
  
 === Relación lineal entre variables cuantitativas === === Relación lineal entre variables cuantitativas ===
Línea 50: Línea 57:
 === Dependencia entre variables continuas === === Dependencia entre variables continuas ===
 Buscaremos el //p-valor// a partir de la //t de Student//. Buscaremos el //p-valor// a partir de la //t de Student//.
 +
  
 ===== Representación en distintos espacios ===== ===== Representación en distintos espacios =====
-Existen ​los siguientes espacios: +Un espacio es un método de representación de datos; existen ​los siguientes espacios: 
-  * **Espacio euclídeo**:​ Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en planos.+  * **Espacio euclídeo**:​ Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en un plano de n-dimensiones.
   * **Espacio vectorial**:​ Los elementos de este espacio son vectores desde un punto a otro.   * **Espacio vectorial**:​ Los elementos de este espacio son vectores desde un punto a otro.
   * **Espacio factorial**:​ Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes...) entre ellas.   * **Espacio factorial**:​ Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes...) entre ellas.
Línea 59: Línea 67:
 ==== PCA ==== ==== PCA ====
 También denominado ACP (análisis de componentes principales). También denominado ACP (análisis de componentes principales).
 +
  
 ==== MCA ==== ==== MCA ====
 También denominado ACM (análisis de componentes multiples). También denominado ACM (análisis de componentes multiples).
 +
 +===== Estadística Bayesiana =====
 +Es una forma alternativa de calcular probabilidades.
 +
 +
 +
 +
 +==== Estadística clásica ====
 +La estadística clásica también es llamada **frecuentista** debido a que necesita de un gran número de experimentos. En cambio la estadística bayesiana permite interpretar la probabilidad de un hecho a partir de unos grados de ignorancia; formando reglas sin tener que realizar un gran número de pruebas y con un grado de confianza. Además la estadística clásica no es útil en situaciones donde la prueba no puede ser repetida (p.ej. el cálculo de la probabilidad del tiempo mañana...),​ se expresa en términos del estilo "en 8 de 10 casos donde hemos observado X condiciones esperamos Y". \\ \\ 
 +''​P(A|B)''​ nos dice la probabilidad de A asumiendo que B es cierta y se calcula: \\ 
 +<​m>​P(A|B) = {P(A inter B)} / {P(B)}</​m>​ \\ 
 +''​P(A∩B)''​ es la probabilidad conjunta (//joint probability//​) de encontrar A y B. \\ 
 +Un ejemplo: sabemos que el 10% de los hombres son daltónicos y que menos de el 1% de las mujeres son daltónicas,​ por lo que tenemos lo siguiente:
 +  * ''​P(daltónico|hombre) = 0.1''​
 +  * ''​P(daltónico|mujer) = 0.01''​
 +Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? ​ (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05).
 +
 +
 +
 +
 +
 +
 +
 +==== Bayes ====
 +Partiendo del teorema de Bayes que es: \\ 
 +<​m>​P(A|B) = {P(B|A)P(A)} / {P(B)}</​m>​ \\ 
 +Si queremos determinar un parámetro a través de un experimento con Bayes miraríamos:​
 +  - B: Ocurrencia del experimento en las observaciones.
 +  - A: El parámetro cogiendo el valor ''​x''​.
 +Podríamos mirarlo sin denominador,​ este, al fin y al cabo, es una constante y no depende del parámetro que deseamos determinar: \\ \\ 
 +<​m>​P(param|data) = P(data|param)P(param)</​m>​ \\ 
 +  * ''​P(data|param)''​ es denominada la función ''​likelyhood''​. Esta enlaza el parámetro con la probabilidad de obtener un dato específico. Representaría el modelo ya que dice qué dato podemos esperar tras observar un valor específico para el parámetro.
 +  * ''​P(param|data)''​ es la probabilidad ''​posterior'',​ la de encontrar un valor concreto para el parámetro dando los datos. Es una medida de nuestra creencia\certeza con respecto a la salida.
 +  * ''​P(param)''​ es la probabilidad ''​previa''​ o ''​prior'',​ es la creencia previa al experimento de encontrar ese valor concreto para el parámetro. Es subjetiva y mientras mayor sea la cantidad de datos su influencia será más pequeña.
 +
 +=== Un ejemplo... ===
 +Un experimento sería lanzar una moneda 10 veces. Imaginemos que obtenemos 7 caras (H) y 3 cruces (T): THHHHTTHHH \\ 
 +Queremos saber si la moneda es fiable o no. Para ello debemos calcular la probabilidad (//p//) de H (por ejemplo) el cual sería el parámetro. Si la moneda es fiable //p// sería 1/2. Neceistamos una likelyhood que podría ser:
 +  * ''​P(H|p) = p''​ -> Probabilidad de sacar una H.
 +  * ''​P(T|p) = 1-p''​ -> Probabilidad de sacar una T.
 +Escogeremos nuestra probabilidad preivia como ''​P(p) = 1''​ para toda //p//. \\
 +En este problema el número de T y de H es lo importante, no el orden de estas por lo que no necesitamos calcular combinaciones ni permutaciones. \\ 
 +Tenemos pues que... ''​P(p|{7H3T}) = p⁷·(1-3)³ = P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(1-p(T))·P(1-p(T))·P(1-p(T))''​. Ahora podemos ver que el valor más probable está cerca del 0.7 y que, a medida que el número de intentos aumenta este valor es más "​seguro":​ \\ 
 +{{ai:​data_analysis:​example_bayesian.png|}} \\ 
 +Si hay pocos valores el likelyhood hace que la distribución sea más plana y probabilidad posterior es influida por la anterior. En cambio, si hay muchos valores el likelyhood coge fuerza ​ y cada vez se acorta más el rango de //​p//​.  ​
 +
 +=== Estadística bayesiana como modelo ===
 +El resultado de realizar el test con Bayes es una distribución de por sí, es decir, una hipótesis. Como tal podemos construir un [[numbers:​statistics#​intervalos_de_confianza|intervalo de confianza]] para //p//.
 +La estadística bayesiana trata fácilmente con datos inexistentes (missing data), tatos en el tiempo, data sets hetereogeneos... Porque es una distribución,​ y como tal puede ser utilizada como input para un nuevo modelo jerárquico. \\ 
 +
ai/data_analysis.1318601958.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)