¡Esta es una revisión vieja del documento!
Este apartado está muy relacionado con Estadística.
Agregar: http://en.wikipedia.org/wiki/Accuracy_and_precision
Correspondería a hacer la media de todos las variables.
Utilizado en un espacio vectorial, al comprobar que dos vectores son combinación lineal el uno del otro podemos saber la relación de sus características.
Muy útil si tratamos los registros de una DB como vectores.
Más info en: Algebra.
El método Cross Validation consiste en dividir un conjunto de datos en k grupos y en realizar k iteraciones donde el modelo, en cada una de ellas, usa k-1 de estos subgrupos como datos de entrenamiento y el resto como test para calcular el ratio de error en la clasificación para cada una de las combinaciones. El valor de estimación de la calidad del modelo vendrá dada por la media de estos ratios.
Es la distancia de un dato a la media.
El grado de distanciamiento de un conjunto de valores respecto a su valor medio.
Es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas.
La función que siguen una distribución es denominada función de densidad.
Aquellas que pueden tomar cualquier valor existente dentro de un intervalo.
Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0 .
Un modelo es una expresión simbólica en forma de igualdad o ecuación. Se utiliza para indicar qué variables intervienen en la respuesta.
Las estimaciones que realiza son siempre iguales a los datos de entrada iniciales y no predice correctamente los nuevos.
O ACP (Análisis de Componentes Principales) y ACM (Análisis de Correspondencias Múltiples), para extraer espacios factoriales de los datos, es decir, para reducir la dimensionalidad de estos.
Consiste en equilibrar un valor.
Imaginemos por ejemplo que queremos diferenciar el coste de un viaje que hace una furgoneta, en ello influye la distancia (en un 80%) y el peso que el vehículo lleva (en un 20%). Para saber pues el coste sólo tenemos que ponderar por dos constantes para dar estos pesos (0.8 y 0.2):
coste = (3*0.8) + (10*0.2) = 4.4coste = (5*0.8) + (1*0.2) = 4.2Los valores no siempre han de sumar 1.
P(A|B) y equivale a decir “la probabilidad de que ocurra A sabiendo que ha ocurrido (o va a ocurrir o está ocurriendo) B”, es decir, “dando B qué probabilidad hay de que ocurra A”.A partir de una distribución bidimensional podemos estudiar la causa-efecto de dos variables (cómo influye una sobre la otra). Por ejemplo, cantidad de lluvia y producción agrícola, aumento de precio y demanda de un producto… Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un “diagrama de dispersión”, será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la recta de regresión. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.
Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.
Podemos ver la relación entre variables a partir del test de la F de Fisher para las continuas y el de la χ² para las categóricas (y si son numéricas las convertiremos a estas).
Cuan lejanos están los valores con respecto a la media. Se define como: σ² , es decir, la desviación típica al cuadrado (no se tiene en cuenta el signo y, a la vez, se acentúan las diferencias).