Tabla de Contenidos

Estadística

Conceptos

Conceptos básicos

Conjuntos

Análisis de datos

Tipos de variables

Al estudiar variables numéricas nos encontramos con conceptos tales como el máximo y el mínimo (valor más grande y más pequeño que puede tomar dicha variable) y con el rango, es decir, la diferencia entre el máximo y el mínimo.

La frecuencia del valor de una variable la podemos encontrar como:

Medidas de dispersión

Muestran propiedades de la distribución.

Moda

Valor que se ha repetido más veces en la muestra (el valor que tiene una mayor frecuencia absoluta).

Mediana

El valor central del conjunto de valores. Para poder calcularla primero hay que ordenar todas las observaciones.
La mediana en la siguiente lista (impar) de valores es 15: 1 12 13 15 15 15 17 18 19
Cuando la lista de valores es par sería la media entre los valores centrales.

Media

La media de una variable x se otiene dividiendo la suma de todos los valores por el número total de valores existentes (es el valor medio de una variable).
La media se representa como una X con palito horizontal arriba.
La mediana es un indicativo más fiable que la media debido a que la media puede ser distorsionada por los outlaiers.
Existen las desviaciones, que son las diferencias entre las distintas observaciones y la media: x_i - media. La suma de todas es 0.

Cuartiles

Números: 12 13 14 15 16 17 200
Mediana: 15
Q1: 13
Q3: 17

Varianza

Se representa como S², es una forma de saber cómo se distribuyen los datos en torno a la media; sería el promedio de la diferencia de todos los elementos con el punto central. Se suman las desviaciones al cuadrado (para evitar el problema que los negativos anulen a los positivos) y se dividen entre el número de elementos.

Desviación estándard o típica

Es lo que utilizamos para determinar la fluctuación de los datos. Es la raíz cuadrada positiva de la varianza:
S = sqrt{S²} La desviación estándar es simplemente el “promedio” esperado con respecto a la media aritmética. Por ejemplo, las muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) tienen una media de 7. Sus desviaciones típicas son 8,08, 5,77 y 1,15, respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.

Podríamos decir que si, por ejemplo, en una clase el conjunto normal de notas está entre el 4 y el 7 la desviación (y por tanto la varianza) sería más pequeña que si las notas están repartidas entre el 2 y 8. Aún así es preferible el uso de la varianza ya que su valor está en las mismas unidades que los datos. Además, si los datos están estandarizados es más intuitivo su uso.

Estandarizar valores

Los valores estandarizados tienen una media de 0 y una desviación típica de 1.

Probabilidad

Es el calculo de la tendencia que existe de que ocurra un suceso. A dicha tendencia se le dará un valor entre 0 (no sucederá) y 1 (sucederá).

Frecuencia relativa

Si tiramos un dado 100 veces y conseguimos los siguientes resultados:

Resultado 1 2 3 4 5 6
Apariciones 12 28 20 20 5 15

Podemos comprobar que es un dado trucado ya que la frecuencia de aparición no está igualada entre los distintos resultados.

Propiedades de la probabilidad

Probabilidad condicionada e independencia de sucesos

La probabilidad condicional se expresa como P(A|B) y equivale a decir “la probabilidad de que ocurra A sabiendo que ocurre (o ha ocurrido o va a ocurrir o está ocurriendo) B”, es decir, “dando B qué probabilidad hay de que ocurra A”, se escribe P(A|B) y se lee la probabilidad de A dado B. No tiene por qué haber una relación entre A y B, ni en tiempo (no tiene por qué suceder ninguno antes) o por causa, A puede causar B, viceversa o simplemente pueden no tener relación alguna.
Se expresa como:
P(A|B) = {P(A inter B)} / {P(B)}



Por ejemplo, calcular la probabilidad de que al tirar un dado salga un 6 habiendo salido previamente un par:

P(6|par) = {1/6}/{3/6} = 1/3
Otro ejemplo:

La probabilidad de tener una enfermedad rara es de 0,001: P(enfermo) = 0,001
La probabilidad de que cuando el paciente está enfermo se acierte en el diagnóstico es de 0,99: P(positivo | enfermo) = 0,99
La probabilidad de falso positivo es de 0,05: P(positivo | sano) = 0,05
Pregunta: Me dicen que he dado positivo, ¿Qué probabilidad hay de que tenga la enfermedad?

Árboles de probabilidad

Teniendo la siguiente proposición:
En una universidad los estudiantes se matriculan en tres carreras del siguiente modo: el 20% estudian arquitectura, el 35% medicina y el 45% economía. El porcentaje de alumnos que finalizan sus estudios en cada caso es del 5%, 12% y del 18%.

Podemos montar un árbol de probabilidades…

  1. …este se hace a partir de un inicio (100% de elementos) que se va distribuyendo en las distintas cantidades de las opciones (sucesos incompatibles), en este caso 1 se distribuye en 0.2, 0.35 y 0.45.
  2. Estos a su vez se distribuyen en las distintas opciones, los que sí que finalizan los estudios y los que no finalizan los estudios. En este caso tenemos los que si finalizan los estudios: 0.05 de 0.2 (0.05 * 0.2 = 0.01), 0.12 de 0.35 (0.12 * 0.35 = 0.042) y 0.18 de 0.45 (0.18 * 0.45 = 0.081).
  3. Para acabar tenemos que saber cuales son las probabilidades de que algo no ocurra, para ello para cada una de estas probabilidades cogemos el tanto por ciento concreto y lo restamos de 100 (o, en este caso de 1). Por ejemplo, si en los que estudian arquitectura el tanto por ciento de los que aprueban es el 5% el tanto por ciento de los que no es 95%, es decir 0.95 de 0.2 (0.95 * 0.2 = 0.19).


Se diría que la probabilidad de entrar en una carrera u otra sería: P(A_1), P(A_2), P(A_3), para arquitectura, medicina y economía respectivamente y el acabar los estudios sería P(B_1), P(B_2) según si es acabarlos o no.
Aprobar los estudios de arquitectura sería pues: P(A_1 inter B_1). Y aprobar los estudios habiendo hecho arquitectura P(B_1 | A_1). Por lo tanto: P(A_i inter B_j) = P(A_i) · P(B_j | A_i)

Teorema de Bayes

Es una fórmula de calcular las probabilidades de sucesos incompatibles:

P(A_i|B) = {P(B|A_i)P(A_i)} / {sum{j}{n}{P(B|A_j)P(A_j)}}






Por ejemplo, teniendo que la probabilidad de que haya un accidente en una fábrica es de 0.1. La probabilidad de que la alarma suene si se ha producido un accidente es de 0.97 y de que suene siendo una falsa alarma es de 0.02. Entonces, dando por supuesto que suena la alarma, qué probabilidad hay de que haya sido por una falsa alarma?
Tenemos pues:

Lo que hace es dar la probabilidad de A dado B a partir de la probabilidad de B dado A. Es decir, sabiendo la probabilidad de tener un dolor de cabeza cuando se tiene gripe, se podría saber la probabilidad de tener gripe si se tiene un dolor de cabeza.

Distribuciones

Una distribución es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas.
La función que siguen una distribución es denominada función de densidad.

Tipos

Discretas

Continuas

Aquellas que pueden tomar cualquier valor existente dentro de un intervalo.

Normal

El teorema del límite central

Dice que cuando el número de variables aleatorias es suficientemente grande la distribución que siguen los experimentos es normal.

Intervalos de confianza

Podemos escribir la probabilidad de la forma…
P(L ≤ Θ ≤ U) = 1 - ∝
, donde L y U son funciones para los datos y Θ el parámetro. Quiere decir que el valor de Θ estará entre L y U en un 100·(1-∝)% de las veces que se haga el experimento.