¡Esta es una revisión vieja del documento!
Al estudiar variables numéricas nos encontramos con conceptos tales como el máximo y el mínimo (valor más grande y más pequeño que puede tomar dicha variable) y con el rango, es decir, la diferencia entre el máximo y el mínimo.
La frecuencia del valor de una variable la podemos encontrar como:
Muestran propiedades de la distribución.
Valor que se ha repetido más veces en la muestra (el valor que tiene una mayor frecuencia absoluta).
El valor central del conjunto de valores. Para poder calcularla primero hay que ordenar todas las observaciones.
La mediana en la siguiente lista (impar) de valores es 15: 1 12 13 15 15 15 17 18 19
Cuando la lista de valores es par sería la media entre los valores centrales.
La media de una variable x se otiene dividiendo la suma de todos los valores por el número total de valores existentes (es el valor medio de una variable).
La media se representa como una X con palito horizontal arriba.
La mediana es un indicativo más fiable que la media debido a que la media puede ser distorsionada por los outlaiers.
Existen las desviaciones, que son las diferencias entre las distintas observaciones y la media: . La suma de todas es 0.
Números: 12 13 14 15 16 17 200 Mediana: 15 Q1: 13 Q3: 17
Q3 - Q1.
Se representa como S², es una forma de saber cómo se distribuyen los datos en torno a la media; sería el promedio de la diferencia de todos los elementos con el punto central. Se suman las desviaciones al cuadrado (para evitar el problema que los negativos anulen a los positivos) y se dividen entre el número de elementos.
Es lo que utilizamos para determinar la fluctuación de los datos. Es la raíz cuadrada positiva de la varianza:
La desviación estándar es simplemente el “promedio” esperado con respecto a la media aritmética. Por ejemplo, las muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) tienen una media de 7. Sus desviaciones típicas son 8,08, 5,77 y 1,15, respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.
Podríamos decir que si, por ejemplo, en una clase el conjunto normal de notas está entre el 4 y el 7 la desviación (y por tanto la varianza) sería más pequeña que si las notas están repartidas entre el 2 y 8. Aún así es preferible el uso de la varianza ya que su valor está en las mismas unidades que los datos. Además, si los datos están estandarizados es más intuitivo su uso.
Los valores estandarizados tienen una media de 0 y una desviación típica de 1.
Es el calculo de la tendencia que existe de que ocurra un suceso. A dicha tendencia se le dará un valor entre 0 (no sucederá) y 1 (sucederá).
Si tiramos un dado 100 veces y conseguimos los siguientes resultados:
| Resultado | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Apariciones | 12 | 28 | 20 | 20 | 5 | 15 |
Podemos comprobar que es un dado trucado ya que la frecuencia de aparición no está igualada entre los distintos resultados.
La probabilidad condicional se expresa como P(A|B) y equivale a decir “la probabilidad de que ocurra A sabiendo que ocurre (o ha ocurrido o va a ocurrir o está ocurriendo) B”, es decir, “dando B qué probabilidad hay de que ocurra A”, se escribe P(A|B) y se lee la probabilidad de A dado B. No tiene por qué haber una relación entre A y B, ni en tiempo (no tiene por qué suceder ninguno antes) o por causa, A puede causar B, viceversa o simplemente pueden no tener relación alguna.
Se expresa como:
Por ejemplo, calcular la probabilidad de que al tirar un dado salga un 6 habiendo salido previamente un par:
Otro ejemplo:
La probabilidad de tener una enfermedad rara es de 0,001: P(enfermo) = 0,001 La probabilidad de que cuando el paciente está enfermo se acierte en el diagnóstico es de 0,99: P(positivo | enfermo) = 0,99 La probabilidad de falso positivo es de 0,05: P(positivo | sano) = 0,05 Pregunta: Me dicen que he dado positivo, ¿Qué probabilidad hay de que tenga la enfermedad?
Teniendo la siguiente proposición:
En una universidad los estudiantes se matriculan en tres carreras del siguiente modo: el 20% estudian arquitectura, el 35% medicina y el 45% economía. El porcentaje de alumnos que finalizan sus estudios en cada caso es del 5%, 12% y del 18%.
Podemos montar un árbol de probabilidades…
Se diría que la probabilidad de entrar en una carrera u otra sería: , para arquitectura, medicina y economía respectivamente y el acabar los estudios sería
según si es acabarlos o no.
Aprobar los estudios de arquitectura sería pues: . Y aprobar los estudios habiendo hecho arquitectura
. Por lo tanto:
Es una fórmula de calcular las probabilidades de sucesos incompatibles:
Por ejemplo, teniendo que la probabilidad de que haya un accidente en una fábrica es de 0.1. La probabilidad de que la alarma suene si se ha producido un accidente es de 0.97 y de que suene siendo una falsa alarma es de 0.02. Entonces, dando por supuesto que suena la alarma, qué probabilidad hay de que haya sido por una falsa alarma?
Tenemos pues:
B = Producirse incidenteA = Sonar la alarmaLo que hace es dar la probabilidad de A dado B a partir de la probabilidad de B dado A. Es decir, sabiendo la probabilidad de tener un dolor de cabeza cuando se tiene gripe, se podría saber la probabilidad de tener gripe si se tiene un dolor de cabeza.
Una distribución es una función que nos da la probabilidad de que un valor concreto para una variable pueda ocurrir. Las distribuciones tiene una forma concreta, según esta son discretas o continuas.
La función que siguen una distribución es denominada función de densidad.
Aquellas que pueden tomar cualquier valor existente dentro de un intervalo.
Dice que cuando el número de variables aleatorias es suficientemente grande la distribución que siguen los experimentos es normal.