Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
|
ai:data_mining [2011/07/01 10:28] alfred |
ai:data_mining [2020/05/09 09:25] (actual) |
||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| ====== Data Mining ====== | ====== Data Mining ====== | ||
| + | Algoritmos y metodología para la explotación de datos. | ||
| ===== El preproceso ===== | ===== El preproceso ===== | ||
| Línea 12: | Línea 13: | ||
| === Individuos a los que le falten valores === | === Individuos a los que le falten valores === | ||
| Cuando un individuo tiene una variable sin valor podemos buscar otro individuo, el más cercano a él (mediante distancia euclídea, por ejemplo), y asignarle el mismo valor. | Cuando un individuo tiene una variable sin valor podemos buscar otro individuo, el más cercano a él (mediante distancia euclídea, por ejemplo), y asignarle el mismo valor. | ||
| + | |||
| Línea 29: | Línea 31: | ||
| - | + | ===== Modelos de regresión ===== | |
| - | ===== Clustering ===== | + | |
| - | Consiste en agrupar individuos en grupos parecidos. | + | |
| - | + | ||
| - | ==== K-Means ==== | + | |
| - | + | ||
| - | ==== Clustering jerárquico ==== | + | |
| - | ==== Calidad de los grupos ==== | + | |
| + | ==== Regresión Lineal ==== | ||
| + | La regresión lineal modeliza la relación entre una variable dependiente ''Y'', las variables independientes ''Xi'' y un término aleatorio ε, y puede ser expresado de la siguiente forma: \\ | ||
| + | <m>Y = beta_0 X_0 + beta_1 X_1 + ... + beta_i X_i + varepsilon</m> \\ | ||
| + | Donde β son los parámetros respectivos a cada variable independiente, e ''i'' es el número de parámetros independientes a tener en cuenta en la regresión. \\ | ||
| + | {{ai:data_mining:linear_regression.png|}} \\ | ||
| + | Es decir, a partir de una distribución bidimensional podemos estudiar la influencia existente entre dos variables (causa-efecto). Un ejemplo sería la relación entre la cantidad de lluvia y la producción agrícola, entre el aumento de precio y la demanda de un producto... Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un "diagrama de dispersión", será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la **recta de regresión**. Esto nos permite, además, predecir un valor para una x que no esté en la distribución. | ||
| + | ==== Regresión logística ==== | ||
| + | Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit. | ||