Herramientas de usuario

Herramientas del sitio


ai:data_mining

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ai:data_mining [2011/10/14 15:03]
alfred
ai:data_mining [2020/05/09 09:25] (actual)
Línea 13: Línea 13:
 === Individuos a los que le falten valores === === Individuos a los que le falten valores ===
 Cuando un individuo tiene una variable sin valor podemos buscar otro individuo, el más cercano a él (mediante distancia euclídea, por ejemplo), y asignarle el mismo valor. Cuando un individuo tiene una variable sin valor podemos buscar otro individuo, el más cercano a él (mediante distancia euclídea, por ejemplo), y asignarle el mismo valor.
 +
  
  
Línea 30: Línea 31:
  
  
- +===== Modelos ​de regresión ​=====
-===== Clustering ===== +
-Consiste en agrupar individuos en grupos parecidos.  +
- +
- +
- +
- +
- +
-==== K-Means ==== +
-En la nube de puntos que forman los individuos... +
-  - Cogemos K centros de gravedad aleatorios (K corresponde al número de grupos), aunque pueden escogerse de otra forma no aleatoria. +
-  - Calculamos la distancia entre un punto cualquiera y el centro de gravedad y le asignaremos el más cercano.  +
-  - Definimos una partición a partir de esto y calculamos su centro de gravedad (no tienen por qué coincidir con puntos). +
-  - Con los nuevos centros volvemos a hacer el paso 2, nos aparece otra partición. +
-=== Fast K-Means ​==+
-Una variación del K-Means es el Fast K-means, en el paso 2 cada vez que enlazasemos con un centro de gravedad crearíamos otro nuevo. En una sola pasada se encuentran las clasificaciones pero son peores. +
-=== Notas === +
-  * K-Means tiene mejor rendimiento que el clustering jerárquico,​ pero necesita saber la K (el número de grupos). Una metodología que puede seguirse es la de hacer la partición jerárquica y, de esta, los centros de gravedad que se utilizarían en el k-means inicialmente.+
  
  
  
  
 +==== Regresión Lineal ====
 +La regresión lineal modeliza la relación entre una variable dependiente ''​Y'',​ las variables independientes ''​Xi''​ y un término aleatorio ε, y puede ser expresado de la siguiente forma: \\ 
 +<m>Y = beta_0 X_0 + beta_1 X_1 + ... + beta_i X_i + varepsilon</​m>​ \\ 
 +Donde β son los parámetros respectivos a cada variable independiente,​ e ''​i''​ es el número de parámetros independientes a tener en cuenta en la regresión. \\ 
 +{{ai:​data_mining:​linear_regression.png|}} \\ 
 +Es decir, a partir de una distribución bidimensional podemos estudiar la influencia existente entre dos variables (causa-efecto). Un ejemplo sería la relación entre la cantidad de lluvia y la producción agrícola, entre el aumento de precio y la demanda de un producto... Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un "​diagrama de dispersión",​ será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la **recta de regresión**. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.
  
 +==== Regresión logística ====
 +Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.
  
-==== Clustering jerárquico ==== 
-Consiste en ir agrupando individuos por cercanía y mostrándolos en un endograma (una especie de árbol\histograma). \\  
-  - Se calcula la matriz de distancias entre los individuos. 
-  - Se coge la pareja de nodos más cercano. 
-  - Se crea un nuevo nodo entre la pareja encontrada, siendo este la agregación de esta pareja que desaparece. 
-  - Pasamos al paso 1. 
-Iremos creando el árbol, siendo la altura de estos nuevos nodos la distancia (al cuadrado) entre la pareja que los forma. \\  
-En el árbol estará todo el historial de agregaciones. ​ \\  
-Al final tendremos un árbol donde se verá cláramente las clases (y se podrán escoger) que lo forman. Por ejemplo, en el siguiente podríamos escoger dos grupos ([1 3 4] y [2 5]) o tres ([1 3], [4] y [2 5]). 
-{{ ai:​md:​dendograma.png?​450px |}} 
-Existen varios criterios para unir nodos: 
-  * Por distancia mínima. 
-  * Por media. 
-  * Por el criterio de ward (inercia). 
  
-==== Calidad del clustering ==== 
-  * Se buscará hacer grupos el máximo de homogéneos posibles entre sus individuos y lo más diferente posible entre ellos. 
-  * Una medida para calcular esto es la inercia. Distinguiremos varias inercias: 
-    * Inercia within: la que hay en los grupos. Suma de inercia de los grupos. 
-    * Inercia between: la que hay entre los grupos. A partir de los centros de gravedad. 
-    * Inercia total: La suma de la within y la between. 
-    * Ratio de inercia: ''​Inercia_Between / Inercia_Total'',​ se buscará hacer la inercia between grande y la within pequeña. 
  
 ===== Reglas de asociación ===== ===== Reglas de asociación =====
ai/data_mining.1318604589.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)