Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
|
ai:data_analysis [2011/10/25 19:52] alfred |
ai:data_analysis [2020/05/09 09:25] (actual) |
||
|---|---|---|---|
| Línea 27: | Línea 27: | ||
| * **Categóricas**: No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores. | * **Categóricas**: No tienen un orden concreto y corresponden a categorías concretas y limitadas (color, actividad en gimnasio, signo del zodiaco...). Una subcategoría de estas serían las **binarias** que sólo pueden tomar dos valores. | ||
| * **Intervalos**: Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**. | * **Intervalos**: Son agrupaciones de valores numéricos (edad que podria ir de 0 a 12 años, de 13 a 18 años...). También podríamos llamarlas **cuantitativas continuas**. | ||
| + | |||
| Línea 35: | Línea 36: | ||
| ==== Relación entre variables ==== | ==== Relación entre variables ==== | ||
| Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados... | Si dos variables están muy relacionadas podríamos decir, poniendo por ejemplo el estado civil y los compañeros de vivienda, cuantos solteros viven con los padres, cuantos casados... | ||
| + | |||
| + | === Covarianza === | ||
| + | Indica qué relación hay entre dos variables: | ||
| + | * Si ''Sxy > 0'' hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y. | ||
| + | * Si ''Sxy = 0'' se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas. | ||
| + | * Si ''Sxy < 0'' hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y. | ||
| === Relación lineal entre variables cuantitativas === | === Relación lineal entre variables cuantitativas === | ||
| Línea 80: | Línea 87: | ||
| * ''P(daltónico|mujer) = 0.01'' | * ''P(daltónico|mujer) = 0.01'' | ||
| Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05). | Si aleatóriamente escogemos una persona en la calle, cual es la probabilidad de que dicha persona sea daltónica y hombre? (ya necesitamos la probabilidad conjunta) Tenemos que la probabilidad de que sea hombre es el 50%, de que sea daltónico y hombre el 10% si dicha persona es realmente hombre por lo que la probabilidad sería del 5% (0.5 * 0.1 = 0.05). | ||
| + | |||
| + | |||
| + | |||
| + | |||
| Línea 96: | Línea 107: | ||
| === Un ejemplo... === | === Un ejemplo... === | ||
| + | Un experimento sería lanzar una moneda 10 veces. Imaginemos que obtenemos 7 caras (H) y 3 cruces (T): THHHHTTHHH \\ | ||
| + | Queremos saber si la moneda es fiable o no. Para ello debemos calcular la probabilidad (//p//) de H (por ejemplo) el cual sería el parámetro. Si la moneda es fiable //p// sería 1/2. Neceistamos una likelyhood que podría ser: | ||
| + | * ''P(H|p) = p'' -> Probabilidad de sacar una H. | ||
| + | * ''P(T|p) = 1-p'' -> Probabilidad de sacar una T. | ||
| + | Escogeremos nuestra probabilidad preivia como ''P(p) = 1'' para toda //p//. \\ | ||
| + | En este problema el número de T y de H es lo importante, no el orden de estas por lo que no necesitamos calcular combinaciones ni permutaciones. \\ | ||
| + | Tenemos pues que... ''P(p|{7H3T}) = p⁷·(1-3)³ = P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(H)·P(1-p(T))·P(1-p(T))·P(1-p(T))''. Ahora podemos ver que el valor más probable está cerca del 0.7 y que, a medida que el número de intentos aumenta este valor es más "seguro": \\ | ||
| + | {{ai:data_analysis:example_bayesian.png|}} \\ | ||
| + | Si hay pocos valores el likelyhood hace que la distribución sea más plana y probabilidad posterior es influida por la anterior. En cambio, si hay muchos valores el likelyhood coge fuerza y cada vez se acorta más el rango de //p//. | ||
| + | |||
| + | === Estadística bayesiana como modelo === | ||
| + | El resultado de realizar el test con Bayes es una distribución de por sí, es decir, una hipótesis. Como tal podemos construir un [[numbers:statistics#intervalos_de_confianza|intervalo de confianza]] para //p//. | ||
| + | La estadística bayesiana trata fácilmente con datos inexistentes (missing data), tatos en el tiempo, data sets hetereogeneos... Porque es una distribución, y como tal puede ser utilizada como input para un nuevo modelo jerárquico. \\ | ||