Herramientas de usuario

Herramientas del sitio


ai:data_mining

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ai:data_mining [2011/10/17 08:32]
alfred
ai:data_mining [2020/05/09 09:25] (actual)
Línea 32: Línea 32:
  
 ===== Modelos de regresión ===== ===== Modelos de regresión =====
 +
  
  
Línea 38: Línea 39:
 La regresión lineal modeliza la relación entre una variable dependiente ''​Y'',​ las variables independientes ''​Xi''​ y un término aleatorio ε, y puede ser expresado de la siguiente forma: \\  La regresión lineal modeliza la relación entre una variable dependiente ''​Y'',​ las variables independientes ''​Xi''​ y un término aleatorio ε, y puede ser expresado de la siguiente forma: \\ 
 <m>Y = beta_0 X_0 + beta_1 X_1 + ... + beta_i X_i + varepsilon</​m>​ \\  <m>Y = beta_0 X_0 + beta_1 X_1 + ... + beta_i X_i + varepsilon</​m>​ \\ 
-Donde β son los parámetros respectivos a cada variable independiente,​ e ''​i''​ es el número de parámetros independientes a tener en cuenta en la regresión. \\ \\ +Donde β son los parámetros respectivos a cada variable independiente,​ e ''​i''​ es el número de parámetros independientes a tener en cuenta en la regresión. \\  
 +{{ai:​data_mining:​linear_regression.png|}} ​\\ 
 Es decir, a partir de una distribución bidimensional podemos estudiar la influencia existente entre dos variables (causa-efecto). Un ejemplo sería la relación entre la cantidad de lluvia y la producción agrícola, entre el aumento de precio y la demanda de un producto... Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un "​diagrama de dispersión",​ será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la **recta de regresión**. Esto nos permite, además, predecir un valor para una x que no esté en la distribución. Es decir, a partir de una distribución bidimensional podemos estudiar la influencia existente entre dos variables (causa-efecto). Un ejemplo sería la relación entre la cantidad de lluvia y la producción agrícola, entre el aumento de precio y la demanda de un producto... Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un "​diagrama de dispersión",​ será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la **recta de regresión**. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.
  
Línea 44: Línea 46:
 Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit. Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.
  
-===== Clustering ===== 
-Consiste en agrupar individuos en grupos parecidos. ​ 
- 
- 
- 
- 
- 
-==== K-Means ==== 
-En la nube de puntos que forman los individuos... 
-  - Cogemos K centros de gravedad aleatorios (K corresponde al número de grupos), aunque pueden escogerse de otra forma no aleatoria. 
-  - Calculamos la distancia entre un punto cualquiera y el centro de gravedad y le asignaremos el más cercano. ​ 
-  - Definimos una partición a partir de esto y calculamos su centro de gravedad (no tienen por qué coincidir con puntos). 
-  - Con los nuevos centros volvemos a hacer el paso 2, nos aparece otra partición. 
-=== Fast K-Means === 
-Una variación del K-Means es el Fast K-means, en el paso 2 cada vez que enlazasemos con un centro de gravedad crearíamos otro nuevo. En una sola pasada se encuentran las clasificaciones pero son peores. 
-=== Notas === 
-  * K-Means tiene mejor rendimiento que el clustering jerárquico,​ pero necesita saber la K (el número de grupos). Una metodología que puede seguirse es la de hacer la partición jerárquica y, de esta, los centros de gravedad que se utilizarían en el k-means inicialmente. 
- 
- 
- 
- 
- 
- 
-==== Clustering jerárquico ==== 
-Consiste en ir agrupando individuos por cercanía y mostrándolos en un endograma (una especie de árbol\histograma). \\  
-  - Se calcula la matriz de distancias entre los individuos. 
-  - Se coge la pareja de nodos más cercano. 
-  - Se crea un nuevo nodo entre la pareja encontrada, siendo este la agregación de esta pareja que desaparece. 
-  - Pasamos al paso 1. 
-Iremos creando el árbol, siendo la altura de estos nuevos nodos la distancia (al cuadrado) entre la pareja que los forma. \\  
-En el árbol estará todo el historial de agregaciones. ​ \\  
-Al final tendremos un árbol donde se verá cláramente las clases (y se podrán escoger) que lo forman. Por ejemplo, en el siguiente podríamos escoger dos grupos ([1 3 4] y [2 5]) o tres ([1 3], [4] y [2 5]). 
-{{ ai:​md:​dendograma.png?​450px |}} 
-Existen varios criterios para unir nodos: 
-  * Por distancia mínima. 
-  * Por media. 
-  * Por el criterio de ward (inercia). 
  
-==== Calidad del clustering ==== 
-  * Se buscará hacer grupos el máximo de homogéneos posibles entre sus individuos y lo más diferente posible entre ellos. 
-  * Una medida para calcular esto es la inercia. Distinguiremos varias inercias: 
-    * Inercia within: la que hay en los grupos. Suma de inercia de los grupos. 
-    * Inercia between: la que hay entre los grupos. A partir de los centros de gravedad. 
-    * Inercia total: La suma de la within y la between. 
-    * Ratio de inercia: ''​Inercia_Between / Inercia_Total'',​ se buscará hacer la inercia between grande y la within pequeña. 
  
 ===== Reglas de asociación ===== ===== Reglas de asociación =====
ai/data_mining.1318840343.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)