Herramientas de usuario

Herramientas del sitio


ai:datos

¡Esta es una revisión vieja del documento!


Interpretación de los datos

Este apartado está muy relacionado con Estadística.

:!: Agregar: http://en.wikipedia.org/wiki/Accuracy_and_precision

Conceptos

Centro de gravedad en una nube de puntos

Correspondería a hacer la media de todos las variables.

Combinación lineal

Utilizado en un espacio vectorial, al comprobar que dos vectores son combinación lineal el uno del otro podemos saber la relación de sus características.
Muy útil si tratamos los registros de una DB como vectores.
Más info en: Algebra.

Cross Validation

El método Cross Validation consiste en dividir un conjunto de datos en k grupos y en realizar k iteraciones donde el modelo, en cada una de ellas, usa k-1 de estos subgrupos como datos de entrenamiento y el resto como test para calcular el ratio de error en la clasificación para cada una de las combinaciones. El valor de estimación de la calidad del modelo vendrá dada por la media de estos ratios.

Desviación típica o estándard

Es la distancia de un dato a la media.

Dispersión

El grado de distanciamiento de un conjunto de valores respecto a su valor medio.

Distribución

Es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas.
La función que siguen una distribución es denominada función de densidad.

Discretas

  • Binomial: Los ensayos son independientes y la probabilidad de éxisto es fija, además únicamente tiene dos posibles resultados: éxito (p) o fracaso (1-p).
  • De Poisson: A partir de la frecuencia de un evento estudia la probabilidad de que ocurran otros durante cierto periodo de tiempo.

Continuas

Aquellas que pueden tomar cualquier valor existente dentro de un intervalo.

  • Normal: o gausiana, en una serie de echos podemos ver los más frecuentes en el centro y los menos a los distintos lados del gráfico. Se define a partir de μ (la media) y σ (la desviación típica (σ² es la varianza)).
  • De Pearson o χ²
  • t de Student: Cuando la muestra es pequeña.
  • De Laplace

Espacios

  • Espacio euclídeo: Trabaja a partir de planos y no de rectas. Mientras que los demás pueden ser tratados como si estuviesen dentro de una esfera el euclídeo equivale a trabajar en planos.
  • Espacio vectorial: Los elementos de este espacio son vectores desde un punto a otro.
  • Espacio factorial: Los elementos son denominados factores y consiste en la representación de una simplificación de variables más complejas (por ejemplo cuantitativas de varias dimensiones) sobre un espacio de menos dimensiones para poder interpretar relaciones (similitudes…) entre ellas.

Lift

Es la medida de rendimiento de un modelo a la hora de predecir o clasificar casos.
Por ejemplo imaginemos que en una población se ha calculado una predicción de respuesta del 5% (esto es que para un valor X se tiene una predicción del 5%), pero en un modelo concreto se ha identificado un subconjunto con una predicción de respuesta del 20%. Ese subconjunto tendría un lift de 4.0 ({20%}/{5%}).

Modelos

Un modelo es una expresión simbólica en forma de igualdad o ecuación. Se utiliza para indicar qué variables intervienen en la respuesta.

Modelo sobreespecializado

Las estimaciones que realiza son siempre iguales a los datos de entrada iniciales y no predice correctamente los nuevos.

PCA y MCA

O ACP (Análisis de Componentes Principales) y ACM (Análisis de Correspondencias Múltiples), para extraer espacios factoriales de los datos, es decir, para reducir la dimensionalidad de estos.

Ponderar

Consiste en equilibrar un valor.
Imaginemos por ejemplo que queremos diferenciar el coste de un viaje que hace una furgoneta, en ello influye la distancia (en un 80%) y el peso que el vehículo lleva (en un 20%). Para saber pues el coste sólo tenemos que ponderar por dos constantes para dar estos pesos (0.8 y 0.2):

  • Caso 1: Furgoneta que recorre 3km con un peso de 10kg → coste = (3*0.8) + (10*0.2) = 4.4
  • Caso 2: Furgoneta que recorre 5km con un peso de 1kg → coste = (5*0.8) + (1*0.2) = 4.2

Los valores no siempre han de sumar 1.

Probabilidades

  • Se representan como valores del 0 al 1.
  • La probabilidad condicional se expresa como P(A|B) y equivale a decir “la probabilidad de que ocurra A sabiendo que ha ocurrido (o va a ocurrir o está ocurriendo) B”, es decir, “dando B qué probabilidad hay de que ocurra A”.

P-Valor

Regresiones

Regresión Lineal

A partir de una distribución bidimensional podemos estudiar la causa-efecto de dos variables (cómo influye una sobre la otra). Por ejemplo, cantidad de lluvia y producción agrícola, aumento de precio y demanda de un producto… Para ello, a partir de una representación gráfica en un sistema de coordenadas encontraremos un “diagrama de dispersión”, será regresión lineal cuando la función es lineal (pendiente y ordenada (y = ax + b)), la recta del gráfico resultante será la recta de regresión. Esto nos permite, además, predecir un valor para una x que no esté en la distribución.

Regresión logística

Para modelar la probabilidad de un evento que ocurre en función de otros factores. Usa la función logit.

Relación entre variables

Podemos ver la relación entre variables a partir del test de la F de Fisher para las continuas y el de la χ² para las categóricas (y si son numéricas las convertiremos a estas).

Varianza

Cuan lejanos están los valores con respecto a la media. Se define como: σ² , es decir, la desviación típica al cuadrado (no se tiene en cuenta el signo y, a la vez, se acentúan las diferencias).

ai/datos.1318591896.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)