Machine learning

Algoritmos de clasificación, desarrollo e implementación de estos.

Aprendizaje

Tipos de aprendizaje

Aprendizaje supervisado

Aprendizaje no supervisado

El proceso

El proceso de aprendizaje consiste en entrenar algoritmos, esto significa encontrar los parámetros más adecuados para redes neuronales, SVM… Lo que se hace es separar los datos que tenemos en datos de entrenamiento y de aprendizaje (estos deberían ser un tercio o un cuarto) y lanzar el algoritmo con los de entrenamiento hasta encontrar los parámetros. Una vez se tienen se probarían con los de test para asegurarnos que funciona. Si el algoritmo la clava con los de entrenamiento pero falla mucho con los de test diremos que está sobreentrenado, que hay overfitting.

Evaluación del modelo

Cross-Validation

Tipos de error

Modelos de regresión

Regresión Lineal

A partir de una distribución bidimensional podemos estudiar la causa-efecto de dos variables (cómo influye una sobre la otra). Por ejemplo, cantidad de lluvia y producción agrícola, aumento de precio y demanda de un producto… Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un “diagrama de dispersión”, será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la recta de regresión. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.

Regresión logística

Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.

KNN

También denominado K nearest neighbors.

Neural Networks

El perceptrón

El algoritmo de backpropagation

Notas

Tips & tricks

Preparación de los datos

Si las clases de las que dispones estuviesen desbalanceadas para el entrenamiento, es decir, que hubiesen muchos más elementos de una clase que de otra. Un truco para no perder información y que no se realice un aprendizage mejor para unas que para otras es duplicar aleatoriamente los individuos de las clases con menos para igualarlas.
Pueden existir problemas, como por ejemplo la identificación de carácteres escritos a mano, en la que la información se nos presente de una forma difícil de tratar para el aprendizaje (rgb de píxels…) y tengamos que hacer “feature extraction” (tratar los píxels como una imágen y encontrar nuevas variables como por ejemplo número de agujeros, euler number, verticalidad…) y realizar el aprendizaje con estas nuevas características.

Programming

Herramientas de usuario

Herramientas del sitio

Tabla de Contenidos