Herramientas de usuario

Herramientas del sitio


ai:data_analysis

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ai:data_analysis [2011/10/25 19:52]
alfred
ai:data_analysis [2020/05/09 09:25] (actual)
Línea 27: Línea 27:
   * **Categóricas**:​ No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores.   * **Categóricas**:​ No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores.
   * **Intervalos**:​ Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**.   * **Intervalos**:​ Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**.
 +
  
  
Línea 35: Línea 36:
 ==== Relación entre variables ==== ==== Relación entre variables ====
 Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados... Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados...
 +
 +=== Covarianza ===
 +Indica qué relación hay entre dos variables:
 +  * Si ''​Sxy > 0''​ hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y.
 +  * Si ''​Sxy = 0''​ se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
 +  * Si ''​Sxy < 0''​ hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.
  
 === Relación lineal entre variables cuantitativas === === Relación lineal entre variables cuantitativas ===
Línea 70: Línea 77:
  
  
-==== Comparación con la estadística ​clásica ====+ 
 +==== Estadística ​clásica ====
 La estadística clásica también es llamada **frecuentista** debido a que necesita de un gran número de experimentos. En cambio la estadística bayesiana permite interpretar la probabilidad de un hecho a partir de unos grados de ignorancia; formando reglas sin tener que realizar un gran número de pruebas y con un grado de confianza. Además la estadística clásica no es útil en situaciones donde la prueba no puede ser repetida (p.ej. el cálculo de la probabilidad del tiempo mañana...),​ se expresa en términos del estilo "en 8 de 10 casos donde hemos observado X condiciones esperamos Y". \\ \\  La estadística clásica también es llamada **frecuentista** debido a que necesita de un gran número de experimentos. En cambio la estadística bayesiana permite interpretar la probabilidad de un hecho a partir de unos grados de ignorancia; formando reglas sin tener que realizar un gran número de pruebas y con un grado de confianza. Además la estadística clásica no es útil en situaciones donde la prueba no puede ser repetida (p.ej. el cálculo de la probabilidad del tiempo mañana...),​ se expresa en términos del estilo "en 8 de 10 casos donde hemos observado X condiciones esperamos Y". \\ \\ 
 ''​P(A|B)''​ nos dice la probabilidad de A asumiendo que B es cierta y se calcula: \\  ''​P(A|B)''​ nos dice la probabilidad de A asumiendo que B es cierta y se calcula: \\ 
Línea 79: Línea 87:
   * ''​P(daltónico|mujer) = 0.01''​   * ''​P(daltónico|mujer) = 0.01''​
 Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? ​ (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05). Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? ​ (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05).
 +
 +
 +
 +
  
  
Línea 95: Línea 107:
  
 === Un ejemplo... === === Un ejemplo... ===
 +Un experimento sería lanzar una moneda 10 veces. Imaginemos que obtenemos 7 caras (H) y 3 cruces (T): THHHHTTHHH \\ 
 +Queremos saber si la moneda es fiable o no. Para ello debemos calcular la probabilidad (//p//) de H (por ejemplo) el cual sería el parámetro. Si la moneda es fiable //p// sería 1/2. Neceistamos una likelyhood que podría ser:
 +  * ''​P(H|p) = p''​ -> Probabilidad de sacar una H.
 +  * ''​P(T|p) = 1-p''​ -> Probabilidad de sacar una T.
 +Escogeremos nuestra probabilidad preivia como ''​P(p) = 1''​ para toda //p//. \\
 +En este problema el número de T y de H es lo importante, no el orden de estas por lo que no necesitamos calcular combinaciones ni permutaciones. \\ 
 +Tenemos pues que... ''​P(p|{7H3T}) = p⁷·(1-3)³ = P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(1-p(T))·P(1-p(T))·P(1-p(T))''​. Ahora podemos ver que el valor más probable está cerca del 0.7 y que, a medida que el número de intentos aumenta este valor es más "​seguro":​ \\ 
 +{{ai:​data_analysis:​example_bayesian.png|}} \\ 
 +Si hay pocos valores el likelyhood hace que la distribución sea más plana y probabilidad posterior es influida por la anterior. En cambio, si hay muchos valores el likelyhood coge fuerza ​ y cada vez se acorta más el rango de //​p//​.  ​
 +
 +=== Estadística bayesiana como modelo ===
 +El resultado de realizar el test con Bayes es una distribución de por sí, es decir, una hipótesis. Como tal podemos construir un [[numbers:​statistics#​intervalos_de_confianza|intervalo de confianza]] para //p//.
 +La estadística bayesiana trata fácilmente con datos inexistentes (missing data), tatos en el tiempo, data sets hetereogeneos... Porque es una distribución,​ y como tal puede ser utilizada como input para un nuevo modelo jerárquico. \\ 
  
ai/data_analysis.1319572342.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)