Diagrama de Dispersión

diagrama de dispersión altura vs peso

Un diagrama de dispersión (XY) tiene puntos que muestran la relación entre dos conjuntos de datos.

En este ejemplo, cada punto muestra el peso de una persona junto con su altura.

(Los datos se trazan en la gráfica como Coordenadas Cartesianas (x,y))

Ejemplo

Una heladería local realiza un seguimiento de la cantidad de helado que venden en comparación con la temperatura de ese día. Aquí están sus cifras de los últimos 12 días:

Venta de helados vs Temperatura
Temperatura °C Venta de Helados
14.2° $215
16.4° $325
11.9° $185
15.2° $332
18.5° $406
22.1° $522
19.4° $412
25.1° $614
23.4° $544
18.1° $421
22.6° $445
17.2° $408

Y aquí están los mismos datos mediante un Diagrama de Dispersión:

diagrama de dispersión ventas vs temperatura

Podemos ver fácilmente que el clima más cálido y los días con más ventas van de la mano. La relación es buena pero no perfecta.

Recta de regresión

También podemos dibujar una "Recta de regresión" (también llamada "Recta de mejor ajuste") en nuestro diagrama de dispersión:

diagrama de dispersión helado vs temperatura con línea

Intenta tener la línea lo más cerca posible de todos los puntos, y con tantos puntos sobre la línea como debajo.

Pero para una mejor precisión podemos calcular la línea usando el método de Regresión de Mínimos Cuadrados y la Calculadora de Mínimos Cuadrados.

Ejemplo: aumento del nivel del mar

Un diagrama de dispersión del aumento del nivel del mar:

nivel promedio del mar
Y aquí he dibujado una "Recta de regresión". nivel promedio del mar con línea

Interpolación y Extrapolación

La interpolación es cuando encontramos un valor dentro de nuestro conjunto de puntos de datos.

interpolar

Aquí usamos interpolación lineal para estimar las ventas en 21°C.

 

La extrapolación es cuando encontramos un valor fuera de nuestro conjunto de puntos de datos.

extrapolar

Aquí usamos extrapolación lineal para estimar las ventas a 29°C (que es más alto que cualquier valor que tengamos).

Cuidado: la extrapolación puede dar resultados engañosos porque estamos en un "territorio desconocido".

 
Además de usar un gráfico (como el anterior), podemos crear una fórmula para ayudarnos.

Ejemplo: ecuación de línea recta

Podemos estimar la ecuación de una línea recta a partir de dos puntos de la gráfica de arriba.

Vamos a estimar dos puntos en la línea cerca de los valores reales: (12°, $180) y (25°, $610)

Primero, encuentra la pendiente:

pendiente "m" cambio en y cambio en x
  = $610 − $180 25° − 12°
  $430 13°  
  = 33 (redondeando)

 

Ahora pon la pendiente y el punto (12°, $180) en la fórmula "punto-pendiente":

y − y1 = m(x − x1)

y − 180 = 33(x − 12)

y = 33(x − 12) + 180

y = 33x 396 + 180

y = 33x 216

 

INTERpolando

Ahora podemos usar esa ecuación para interpolar un valor de venta a 21 °:

y = 33×21° 216 = $477

 

EXTRApolando

Y para extrapolar un valor de venta a 29 °:

y = 33×29° 216 = $741

Los valores están cerca de lo que obtuvimos en la gráfica. Pero eso no significa que sean más (o menos) precisos. Todos son solo estimaciones.

¡No uses la extrapolación demasiado lejos! ¿Qué ventas esperarías a 0 °?

y = 33×0° 216 = $216

Uhmmm... ¿Menos $216? ¡Eso sería extrapolar demasiado lejos!

Nota: utilizamos interpolación y extrapolación lineales (basadas en una línea), pero hay muchos otros tipos, por ejemplo, podríamos usar polinomios para hacer curvas, etc.

Correlación

Cuando dos conjuntos de datos están fuertemente vinculados, decimos que tienen una correlación alta.

La palabra Correlación está formada de Co- (que significa "juntos") y Relación.

De esta forma:

tipos de correlaciones

(Puedes leer más sobre Correlación)

Correlación negativa

Las correlaciones pueden ser negativas, lo que significa que hay una correlación, pero un valor disminuye a medida que aumenta el otro valor.

Ejemplo: tasa de natalidad vs PIB

La tasa de natalidad tiende a ser más baja en los países más ricos.

 

A continuación se muestra un diagrama de dispersión para unos 100 países diferentes.

País Producto Interno Bruto (PIB) Tasa de
Natalidad
Madagascar $800 5.70
India $3,100 2.85
México $9,600 2.49
Taiwán $25,300 1.57
Noruega $40,000 1.78

PIB vs tasa de natalidad

Tiene una correlación negativa (la línea se inclina hacia abajo).

Nota: Traté de ajustar una línea recta a los datos, pero tal vez una curva funcionaría mejor, ¿qué opinas?

 

¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).