Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
|
ai:datos [2011/10/14 11:41] alfred |
— (actual) | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| - | ====== Interpretación de los datos ====== | ||
| - | Este apartado está muy relacionado con [[numbers:statistics]]. | ||
| - | |||
| - | :!: Agregar: [[http://en.wikipedia.org/wiki/Accuracy_and_precision]] | ||
| - | |||
| - | ===== Conceptos ===== | ||
| - | |||
| - | ==== Centro de gravedad en una nube de puntos ==== | ||
| - | Correspondería a hacer la media de todos las variables. | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Combinación lineal ==== | ||
| - | Utilizado en un espacio vectorial, al comprobar que dos vectores son combinación lineal el uno del otro podemos saber la relación de sus características. \\ | ||
| - | Muy útil si tratamos los registros de una DB como vectores. \\ | ||
| - | Más info en: [[numbers:algebra#combinacion_linear|Algebra]]. | ||
| - | |||
| - | |||
| - | |||
| - | ==== Cross Validation ==== | ||
| - | El método **Cross Validation** consiste en dividir un conjunto de datos en k grupos y en realizar k iteraciones donde el modelo, en cada una de ellas, usa k-1 de estos subgrupos como datos de entrenamiento y el resto como test para calcular el ratio de error en la clasificación para cada una de las combinaciones. El valor de estimación de la calidad del modelo vendrá dada por la media de estos ratios. | ||
| - | * [[ai:machine_learning#cross-validation]] | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Desviación típica o estándard ==== | ||
| - | Es la distancia de un dato a la media. | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Dispersión ==== | ||
| - | El grado de distanciamiento de un conjunto de valores respecto a su valor medio. | ||
| - | |||
| - | |||
| - | |||
| - | ==== Distribución ==== | ||
| - | Es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas. \\ | ||
| - | La función que siguen una distribución es denominada **función de densidad**. | ||
| - | |||
| - | === Discretas === | ||
| - | * **Binomial**: Los ensayos son independientes y la probabilidad de éxisto es fija, además únicamente tiene dos posibles resultados: éxito (p) o fracaso (1-p). | ||
| - | * **De Poisson**: A partir de la frecuencia de un evento estudia la probabilidad de que ocurran otros durante cierto periodo de tiempo. | ||
| - | |||
| - | === Continuas === | ||
| - | Aquellas que pueden tomar cualquier valor existente dentro de un intervalo. | ||
| - | * **Normal**: o gausiana, en una serie de echos podemos ver los más frecuentes en el centro y los menos a los distintos lados del gráfico. Se define a partir de μ (la media) y σ (la desviación típica (σ² es la varianza)). | ||
| - | * **De Pearson o χ²** | ||
| - | * **t de Student**: Cuando la muestra es pequeña. | ||
| - | * **De Laplace** | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Espacios ==== | ||
| - | * **Espacio euclídeo**: Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en planos. | ||
| - | * **Espacio vectorial**: Los elementos de este espacio son vectores desde un punto a otro. | ||
| - | * **Espacio factorial**: Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas (por ejemplo [[ai:datos#variables|cuantitativas]] de varias dimensiones) sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes...) entre ellas. | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Modelos ==== | ||
| - | Un modelo es una expresión simbólica en forma de igualdad o ecuación. Se utiliza para indicar qué variables intervienen en la respuesta. | ||
| - | === Modelo sobreespecializado === | ||
| - | Las estimaciones que realiza son siempre iguales a los datos de entrada iniciales y no predice correctamente los nuevos. | ||
| - | |||
| - | |||
| - | |||
| - | ==== PCA y MCA ==== | ||
| - | O ACP (Análisis de Componentes Principales) y ACM (Análisis de Correspondencias Múltiples), para extraer espacios factoriales de los datos, es decir, para reducir la dimensionalidad de estos. | ||
| - | |||
| - | ==== Ponderar ==== | ||
| - | Consiste en equilibrar un valor. \\ | ||
| - | Imaginemos por ejemplo que queremos diferenciar el coste de un viaje que hace una furgoneta, en ello influye la distancia (en un 80%) y el peso que el vehículo lleva (en un 20%). Para saber pues el coste sólo tenemos que //ponderar// por dos constantes para dar estos pesos (0.8 y 0.2): | ||
| - | * //Caso 1//: Furgoneta que recorre 3km con un peso de 10kg -> ''coste = (3*0.8) + (10*0.2) = 4.4'' | ||
| - | * //Caso 2//: Furgoneta que recorre 5km con un peso de 1kg -> ''coste = (5*0.8) + (1*0.2) = 4.2'' | ||
| - | Los valores no siempre han de sumar 1. | ||
| - | |||
| - | |||
| - | ==== Probabilidades ==== | ||
| - | * Se representan como valores del 0 al 1. | ||
| - | * La **probabilidad condicional** se expresa como ''P(A|B)'' y equivale a decir "la probabilidad de que ocurra A sabiendo que ha ocurrido (o va a ocurrir o está ocurriendo) B", es decir, "dando B qué probabilidad hay de que ocurra A". | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Regresiones ==== | ||
| - | === Regresión Lineal === | ||
| - | A partir de una distribución bidimensional podemos estudiar la causa-efecto de dos variables (cómo influye una sobre la otra). Por ejemplo, cantidad de lluvia y producción agrícola, aumento de precio y demanda de un producto... Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un "diagrama de dispersión", será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la **recta de regresión**. Esto nos permite, además, predecir un valor para una x que no esté en la distribución. | ||
| - | === Regresión logística === | ||
| - | Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit. | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | ==== Varianza ==== | ||
| - | Cuan lejanos están los valores con respecto a la media. Se define como: σ² , es decir, la desviación típica al cuadrado (no se tiene en cuenta el signo y, a la vez, se acentúan las diferencias). | ||