Distribución Normal Estándar

Los datos se pueden "distribuir" (esparcir) de diferentes maneras.

Se puede extender
más a la izquierda
 
O más a la derecha
datos sesgados a la izquierda   datos sesgados a la derecha
     
O pueden estar por todos lados
datos aleatorios

Pero hay muchos casos en los que los datos tienden a estar alrededor de un valor central sin sesgo hacia la izquierda o hacia la derecha, y se acerca a una "Distribución Normal" como esta:

curva de campana

Una Distribución Normal

La "curva de campana" es una distribución normal.
Y el histograma amarillo muestra algunos datos que
la siguen de cerca, pero no perfectamente (lo cual es habitual).

campana A menudo se le llama "Curva de Campana"
porque parece una campana

Muchas cosas siguen de cerca una Distribución Normal:
Decimos que los datos están "distribuidos normalmente":

distribución normal con moda, media y mediana en el centro

La Distribución Normal tiene:

  • media = mediana = moda
  • simetría central
  • 50% de valores menores que la media
    y 50% mayores que la media

Quincuce

¡Puedes ver una distribución normal creada por azar!

Se llama el Quincunce y es una máquina increíble.

¡Juega con ella!

  quincunce

Desviaciones estándar

La Desviación Estándar es una medida de la dispersión de los números (lee esa página para obtener detalles sobre cómo calcularla).

Cuando nosotros calculamos la desviación estándar encontramos que generalmente:

distribución normal 68%, 95%, 99.7%

 

68% de los valores están dentro de
1 desviación estándar de la media

 

 

95% de los valores están dentro de
2 desviaciones estándar de la media

 

 

99.7% de los valores están dentro de
3 desviaciones estándar de la media

 

Ejemplo: 95% de los estudiantes en la escuela tienen entre 1.1m y 1.7m de altura.

Suponiendo que estos datos se distribuyen normalmente, ¿puede calcular la media y la desviación estándar?

La media está a medio camino entre 1.1m y 1.7m:

Media = (1.1m + 1.7m) / 2 = 1.4m

95% indica 2 desviaciones estándar a cada lado de la media (un total de 4 desviaciones estándar), entonces:

1 desviación estándar = (1.7m-1.1m) / 4
  = 0.6m / 4
  = 0.15m

Y este es el resultado:
distribución normal 95%

Es bueno conocer la desviación estándar, porque podemos decir que cualquier valor es:

Puntuación estándar o tipificada

El número de desviaciones estándar de la media también se denomina "puntuación estándar o tipificada", "unidad tipificada", "variable estandarizada o normalizada" o "valor-z" ¡Acostúmbrate a esas palabras!

Ejemplo: En esa misma escuela una de tus amigas mide 1.85m.

 

distribución normal 95%

Puedes ver en la curva de campana que 1.85m está a 3 desviaciones estándar de la media de 1.4, entonces:

La altura de tu amiga tiene una "valor-z" de 3.0

También es posible calcular a cuántas desviaciones estándar está 1.85 de la media

¿A qué distancia está 1.85 de la media?

Está a 1.85 − 1.4 = 0.45m de la media

¿Cuántas desviaciones estándar es eso? La desviación estándar es de 0.15m, entonces:

0.45m / 0.15m = 3 desviaciones estándar

Entonces, para convertir un valor en un Puntaje Estándar ("valor-z"):
Hacer eso se llama "Estandarización":

estandarizar

Podemos tomar cualquier Distribución Normal y convertirla a la Distribución Normal Estándar.

Ejemplo: Tiempo de Viaje

Una encuesta del tiempo de viaje diario tuvo estos resultados (en minutos):

26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

La Media es de 38.8 minutos y la Desviación Estándar es de 11.4 minutos (puedes copiar y pegar los valores en la Calculadora de Desviación Estándar si gustas).

Convierta los valores en valores-z ("puntajes estándar").

 

Para convertir 26:

primero resta la media: 26 − 38.8 = −12.8,
luego divide por la desviación estándar: −12.8/11.4 = −1.12

Entonces 26 está a −1.12 Desviaciones Estándar de la media

 

Aquí están las tres primeras conversiones.

Valor Original Operaciones Puntaje Estándar
(valor-z)
26 (26-38.8) / 11.4 = −1.12
33 (33-38.8) / 11.4 = −0.51
65 (65-38.8) / 11.4 = +2.30
... ... ...

 

Y aquí están gráficamente:

puntajes de distribución normal estándar

¡Puedes calcular el resto de los valores-z tú mismo!

 

La fórmula del valor-z que hemos estado usando es:

z = x − μσ

Y así es como se usa:

Ejemplo: Tiempo de Viaje (continuación)

Estas son las tres primeras conversiones utilizando la "fórmula del valor-z":

z = x − μσ

  • μ = 38.8
  • σ = 11.4
x x − μσ z
(valor-z)
26 26 − 38.811.4 = −1.12
33 33 − 38.811.4 = −0.51
65 65 − 38.811.4 = +2.30
... ... ...

Son los cálculos exactos que hicimos antes, solo siguiendo la fórmula.

¿Por qué estandarizar ...?

Puede ayudarnos a tomar decisiones sobre nuestros datos.

Ejemplo: La profesora Claudia está revisando una prueba.

Aquí están los resultados de los estudiantes (de un máximo de 60 puntos):

20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17

La mayoría de los estudiantes ni siquiera obtuvieron 30 de 60, y la mayoría reprobará.

La prueba debe haber sido realmente difícil, por lo que la profesora decide estandarizar todos los puntajes y decide que solo reprobarán las personas a más de 1 desviación estándar por debajo de la media.

La media es 23, y la desviación estándar es 6.6, y estos son los puntajes estándar:

-0.45, -1.21, 0.45, 1.36, -0.76, 0.76, 1.82, -1.36, 0.45, -0.15, -0.91

Ahora solo dos estudiantes reprobarán (los inferiores a −1 desviación estándar)

¡Mucho más justo!

También hace la vida más fácil porque solo necesitamos una tabla (la Tabla de Distribución Normal Estándar), en lugar de hacer cálculos individualmente para cada valor de media y desviación estándar.

En más detalle

Aquí está la Distribución Normal Estándar con porcentajes por cada mitad de una desviación estándar, y porcentajes acumulativos:

distribución normal gran curva de campana

Ejemplo: Tu puntaje en una prueba reciente estuvo 0.5 desviaciones estándar por encima del promedio, ¿cuántas personas obtuvieron puntajes más bajos que tú?
  • Entre 0 y 0.5 es 19.1%
  • Menos de 0 es 50% (mitad izquierda de la curva)
Entonces el total menor que tú es:

50% + 19.1% = 69.1%

En teoría, el 69.1% obtuvo una puntuación inferior a la tuya (pero con datos reales, el porcentaje puede ser diferente)

midiendo 1kg

Un ejemplo práctico: su empresa empaca azúcar en bolsas de 1 kg.

Cuando pesas una muestra de bolsas obtienes estos resultados:

Algunos valores son inferiores a 1000 g ... ¿puedes arreglar eso?

La distribución normal de sus medidas se ve así:

ejemplo 1 de distribución estándar

31% de las bolsas son menos de 1000g,
¡lo cual es engañar al cliente!

Es algo aleatorio, por lo que no podemos evitar que las bolsas tengan menos de 1000 g, pero podemos intentar reducirlo bastante.

Vamos a ajustar la máquina para que 1000 g esté: Entonces, ajustemos la máquina para que tenga 1000g a −2.5 desviaciones estándar de la media.

Ahora, podemos ajustarla para:
Probemos ambas opciones.

Ajustar la cantidad media en cada bolsa

 distribución estándar ejemplo 2

La desviación estándar es de 20g, y necesitamos 2.5 de ellas:

2.5 × 20g = 50g

Entonces la máquina debería promediar 1050g, así:

Ajustar la precisión de la máquina

 distribución estándar ejemplo 3

O podemos mantener la misma media (de 1010 g), pero entonces necesitamos que 2.5 desviaciones estándar sean iguales a 10g:

10g / 2.5 = 4g

Entonces, la desviación estándar debería ser 4g, así:

(¡Esperamos que la máquina sea tan precisa!)

O tal vez podríamos tener una combinación de mejor precisión y un tamaño promedio ligeramente mayor, ¡lo dejaré en tus manos!

Valores más precisos...

Usa la Tabla de Distribución Normal Estándar cuando requieras valores más precisos.

 

¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).