Intervalo de Confianza

intervalo de confianza 4 más/menos 2
Un intervalo de 4 más o menos 2

Un intervalo de confianza es un rango de valores en el que estamos bastante seguros de que reside nuestro verdadero valor.

hombres corriendo

Ejemplo: altura promedio

Medimos las alturas de 40 hombres elegidos al azar y obtenemos una altura media de 175cm,

También conocemos que la Desviación Estándar de las alturas de estos hombres es de 20cm.

El intervalo de confianza del 95% (mostramos cómo calcularlo más adelante) es:

175cm ± 6.2cm

intervalo de confianza  175 más/menos 6.2

Esto dice que la verdadera media de TODOS los hombres (si pudiéramos medir todas sus alturas) es probable que esté entre 168.8cm y 181.2cm.

¡Pero puede que no sea así!

El "95%" indica que el 95% de los experimentos similares al que acabamos de hacer incluirán la media real, pero el 5% no.

Por lo tanto, existe una probabilidad de 1 en 20 (5%) de que nuestro Intervalo de confianza NO incluya la media real.

Cálculo del intervalo de confianza

Paso 1: empieza con

Nota: deberíamos usar la desviación estándar de toda la población, pero en muchos casos no la sabremos.

Podemos usar la desviación estándar para la muestra si tenemos suficientes observaciones (al menos n = 30, pero es deseable aún más).

Siguiendo nuestro ejemplo:

Paso 2: decide qué intervalo de confianza quieres: 95% o 99% son opciones comunes. Luego encuentra el valor "Z" para ese intervalo de confianza aquí:

Intervalo de Confianza
Z
80% 1.282
85% 1.440
90% 1.645
95% 1.960
99% 2.576
99.5% 2.807
99.9% 3.291

Para el 95%, el valor Z es 1.960

Paso 3: usa ese valor Z en esta fórmula para el intervalo de confianza

X  ±  Zs√n

Donde:

Y tenemos:

175 ± 1.960 × 20√40

Es decir:

175cm ± 6.20cm

En otras palabras: de 168.8cm a 181.2cm

El valor después del ± se llama margen de error

El margen de error en nuestro ejemplo es 6.20cm

calculadora de intervalo de confianza

Calculadora

¡En Disfruta Las Matemáticas tenemos una Calculadora de Intervalos de Confianza para facilitarte la vida!

Simulador

También tenemos un interesante Simulador de Distribuciones Normales donde podemos comenzar con una media "verdadera" teórica y una desviación estándar, y luego tomar muestras aleatorias.

Nos ayuda a comprender cómo las muestras aleatorias a veces pueden ser muy buenas o malas para representar los valores verdaderos subyacentes.

Otro ejemplo

árbol de manzanas

Ejemplo: huerto de manzanas

¿Son las manzanas lo suficientemente grandes?

Hay cientos de manzanas en los árboles, por lo que eliges aleatoriamente solo 46 manzanas, las mides y obtienes:

Hagamos las operaciones:

X  ±  Zs√n

Conocemos:

86 ± 1.960 × 6.2√46 = 86 ± 1.79

Por lo tanto, es probable que la media real (de todos los cientos de manzanas) esté entre 84.21 y 87.79

Media verdadera

Ahora imagina que podemos recoger TODAS las manzanas de inmediato, y hacer que TODAS sean medidas por la empaquetadora (¡esto es un lujo que normalmente no se encuentra en las estadísticas!).

Y la verdadera media resulta ser 84.9

Pongamos todas las manzanas en el suelo desde la más pequeña a la más grande:

intervalo de confianza  86 más/menos 1.79
Cada manzana es un punto verde,
excepto nuestras observaciones que son azules

Nuestro resultado no fue exacto ... es aleatorio después de todo ... pero la verdadera media está dentro de nuestro intervalo de confianza de 86 ± 1.79 (en otras palabras, 84.21 a 87.79)

¡Pero la verdadera media podría no estar dentro del intervalo de confianza, pero el 95% de las veces lo estará!

El 95% de todos los "Intervalos de confianza del 95%" incluirá la media real.

Imagina que tuvimos esta muestra, con una media de 83.5:

intervalo de confianza 83.5 más/menos 1.25
Cada manzana es un punto verde,
excepto nuestras observaciones que son púrpuras

Eso no incluye la verdadera media. Espera que eso suceda el 5% del tiempo para un intervalo de confianza del 95%.

Entonces, ¿cómo sabemos si la muestra que tomamos es una del 95% "afortunado" o del 5% desafortunado? A menos que podamos medir a toda la población como arriba, simplemente no lo sabemos.

Este es el riesgo en el Muestreo: podríamos tener una mala muestra.

Un ejemplo en una investigación

Aquí está el intervalo de confianza utilizado en investigaciones reales sobre ejercicio adicional para personas mayores:

intervalo de confianza en un estudio

¿Qué nos está diciendo? Si miramos la fila Male (Hombres) vemos:

"HR" es una medida del beneficio para la salud (menor es mejor), por lo que esa línea dice que el verdadero beneficio del ejercicio (para la población más amplia de hombres) tiene un 95% de probabilidad de estar entre 0.88 y 0.97

*Nota para los curiosos: "HR" se usa mucho en la investigación de la salud y significa "Hazard Ratio" (Cociente de Riesgo) donde más bajo es mejor, por lo que un HR de 0.92 significa que los hombres estaban mejor y 1.03 significa un poco peor.

Distribución Normal Estándar

Todo se basa en la idea de la Distribución Normal Estándar, donde la Z indica el "Valor-z"

Por ejemplo, la Z para el 95% es 1.960, y aquí vemos que el rango de −1.96 a +1.96 incluye el 95% de todos los valores:

intervalo de confianza  95%
De −1.96 a +1.96 desviaciones estándar está el 95% de los valores

Aplicar eso a nuestra muestra se ve así:

intervalo de confianza  86 más/menos 1.79 (campana)
También de −1.96 a +1.96 desviaciones estándar, por lo que incluye el 95%

Conclusión

El intervalo de confianza se basa en la media y la desviación estándar. Su fórmula es:

X  ±  Zs√n

Donde:

Intervalo de Confianza
Z
80% 1.282
85% 1.440
90% 1.645
95% 1.960
99% 2.576
99.5% 2.807
99.9% 3.291

 

¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).