Intervalo de Confianza
Un intervalo de 4 más o menos 2
Un intervalo de confianza es un rango de valores en el que estamos bastante seguros de que reside nuestro verdadero valor.
Ejemplo: altura promedio
Medimos las alturas de 40 hombres elegidos al azar y obtenemos una altura media de 175cm,
También conocemos que la Desviación Estándar de las alturas de estos hombres es de 20cm.
El intervalo de confianza del 95% (mostramos cómo calcularlo más adelante) es:
175cm ± 6.2cm
¡Pero puede que no sea así!
El "95%" indica que el 95% de los experimentos similares al que acabamos de hacer incluirán la media real, pero el 5% no.
Por lo tanto, existe una probabilidad de 1 en 20 (5%) de que nuestro Intervalo de confianza NO incluya la media real.
Cálculo del intervalo de confianza
Paso 1: empieza con
- el número de observaciones n
- la media X
- y la Desviación Estándar s
Podemos usar la desviación estándar para la muestra si tenemos suficientes observaciones (al menos n = 30, pero es deseable aún más).
Siguiendo nuestro ejemplo:
- número de observaciones n = 40
- media X = 175
- desviación estándar s = 20
Paso 2: decide qué intervalo de confianza quieres: 95% o 99% son opciones comunes. Luego encuentra el valor "Z" para ese intervalo de confianza aquí:
Intervalo de Confianza |
Z |
80% | 1.282 |
85% | 1.440 |
90% | 1.645 |
95% | 1.960 |
99% | 2.576 |
99.5% | 2.807 |
99.9% | 3.291 |
Para el 95%, el valor Z es 1.960
Paso 3: usa ese valor Z en esta fórmula para el intervalo de confianza
X ± Zs√n
Donde:
- X es la media
- Z es el valor Z elegido de la tabla anterior
- s es la desviación estándar
- n es el número de observaciones
Y tenemos:
175 ± 1.960 × 20√40
Es decir:
175cm ± 6.20cm
En otras palabras: de 168.8cm a 181.2cm
El valor después del ± se llama margen de error
El margen de error en nuestro ejemplo es 6.20cm
Calculadora
¡En Disfruta Las Matemáticas tenemos una Calculadora de Intervalos de Confianza para facilitarte la vida!
Simulador
También tenemos un interesante Simulador
de Distribuciones Normales donde podemos comenzar con una media
"verdadera" teórica y una desviación estándar, y luego tomar muestras
aleatorias.
Nos ayuda a comprender cómo las muestras aleatorias a veces pueden ser
muy buenas o malas para representar los valores verdaderos subyacentes.
Otro ejemplo
Ejemplo: huerto de manzanas
¿Son las manzanas lo suficientemente grandes?Hay cientos de manzanas en los árboles, por lo que eliges aleatoriamente solo 46 manzanas, las mides y obtienes:
- una media de 86
- una desviación estándar de 6.2
Hagamos las operaciones:
X ± Zs√n
Conocemos:
- X es la media = 86
- Z es el valor Z = 1.960 (de la tabla anterior para el 95%)
- s es la desviación estándar = 6.2
- n es el número de observaciones = 46
86 ± 1.960 × 6.2√46 = 86 ± 1.79
Por lo tanto, es probable que la media real (de todos los cientos de manzanas) esté entre 84.21 y 87.79
Media verdadera
Ahora imagina que podemos recoger TODAS las manzanas de inmediato, y hacer que TODAS sean medidas por la empaquetadora (¡esto es un lujo que normalmente no se encuentra en las estadísticas!).Y la verdadera media resulta ser 84.9
Pongamos todas las manzanas en el suelo desde la más pequeña a la más grande:
Cada manzana es un punto verde,
excepto nuestras observaciones que son azules
¡Pero la verdadera media podría no estar dentro del intervalo de confianza, pero el 95% de las veces lo estará!
El 95% de todos los "Intervalos de confianza del 95%" incluirá la media real.
Imagina que tuvimos esta muestra, con una media de 83.5:
Cada manzana es un punto verde,
excepto nuestras observaciones que son púrpuras
Eso no incluye la verdadera media. Espera que eso
suceda el 5% del tiempo para un intervalo de confianza del 95%.
Entonces, ¿cómo sabemos si la muestra que tomamos es una del 95%
"afortunado" o del 5% desafortunado? A menos que podamos medir a toda
la población como arriba, simplemente no lo sabemos.
Este es el riesgo en el Muestreo: podríamos tener una mala muestra.
Un ejemplo en una investigación
Aquí está el intervalo de confianza utilizado en investigaciones reales sobre ejercicio adicional para personas mayores:
¿Qué nos está diciendo? Si miramos la fila Male (Hombres) vemos:
- 1,226 hombres (47.6% de todas las personas)
- tenían un "HR" (ver abajo) con una media de 0.92,
- y un intervalo de confianza del 95% (IC del 95%) de 0.88 a 0.97 (que también es 0.92 ± 0.05)
"HR" es una medida del beneficio para la salud (menor es mejor), por
lo que esa línea dice que el verdadero beneficio del ejercicio
(para la población más amplia de hombres) tiene un 95% de probabilidad
de estar entre 0.88 y 0.97
*Nota para los curiosos: "HR" se usa mucho en la investigación de
la salud y significa "Hazard Ratio" (Cociente de Riesgo) donde más
bajo es mejor, por lo que un HR de 0.92 significa que los hombres
estaban mejor y 1.03 significa un poco peor.
Distribución Normal Estándar
Todo se basa en la idea de la Distribución Normal Estándar, donde la Z indica el "Valor-z"
Por ejemplo, la Z para el 95% es 1.960, y aquí vemos que el rango de −1.96 a +1.96 incluye el 95% de todos los valores:
De −1.96 a +1.96 desviaciones estándar está el 95% de los valores
Aplicar eso a nuestra muestra se ve así:
También de −1.96 a +1.96 desviaciones estándar, por lo que incluye el
95%
Conclusión
El intervalo de confianza se basa en la media y la desviación estándar. Su fórmula es:
X ± Zs√n
Donde:
- X es la media
- Z es el Valor-z de la tabla de abajo
- s es la desviación estándar
- n es el número de observaciones
Intervalo de Confianza |
Z |
80% | 1.282 |
85% | 1.440 |
90% | 1.645 |
95% | 1.960 |
99% | 2.576 |
99.5% | 2.807 |
99.9% | 3.291 |
¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).