¡Esta es una revisión vieja del documento!
Este apartado está muy relacionado con Estadística.
Agregar: http://en.wikipedia.org/wiki/Accuracy_and_precision
Correspondería a hacer la media de todos las variables.
Utilizado en un espacio vectorial, al comprobar que dos vectores son combinación lineal el uno del otro podemos saber la relación de sus características.
Muy útil si tratamos los registros de una DB como vectores.
Más info en: Algebra.
El método Cross Validation consiste en dividir un conjunto de datos en k grupos y en realizar k iteraciones donde el modelo, en cada una de ellas, usa k-1 de estos subgrupos como datos de entrenamiento y el resto como test para calcular el ratio de error en la clasificación para cada una de las combinaciones. El valor de estimación de la calidad del modelo vendrá dada por la media de estos ratios.
Es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas.
La función que siguen una distribución es denominada función de densidad.
Aquellas que pueden tomar cualquier valor existente dentro de un intervalo.
Un modelo es una expresión simbólica en forma de igualdad o ecuación. Se utiliza para indicar qué variables intervienen en la respuesta.
Las estimaciones que realiza son siempre iguales a los datos de entrada iniciales y no predice correctamente los nuevos.
O ACP (Análisis de Componentes Principales) y ACM (Análisis de Correspondencias Múltiples), para extraer espacios factoriales de los datos, es decir, para reducir la dimensionalidad de estos.
Consiste en equilibrar un valor.
Imaginemos por ejemplo que queremos diferenciar el coste de un viaje que hace una furgoneta, en ello influye la distancia (en un 80%) y el peso que el vehículo lleva (en un 20%). Para saber pues el coste sólo tenemos que ponderar por dos constantes para dar estos pesos (0.8 y 0.2):
coste = (3*0.8) + (10*0.2) = 4.4coste = (5*0.8) + (1*0.2) = 4.2Los valores no siempre han de sumar 1.
A partir de una distribución bidimensional podemos estudiar la causa-efecto de dos variables (cómo influye una sobre la otra). Por ejemplo, cantidad de lluvia y producción agrícola, aumento de precio y demanda de un producto… Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un “diagrama de dispersión”, será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la recta de regresión. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.
Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.