Regresión de Mínimos Cuadrados

Recta de mejor ajuste (Recta de regresión)

Imagina que tienes algunos puntos y deseas tener una línea que se ajuste muy bien a ellos, de esta manera:

diagrama de dispersión helado vs temperatura con línea

Podemos colocar la línea "a ojo": trata de tener la línea lo más cerca posible de todos los puntos, y un número similar de puntos arriba y debajo de la línea.

Pero para una mejor precisión, veamos cómo calcular la línea usando Regresión de Mínimos Cuadrados.

La línea

Nuestro objetivo es calcular los valores m (pendiente) y b (intersección en y) en la ecuación de la recta:

y = mx + b

Donde:

Pasos

Para encontrar la recta de regresión para N puntos:

Paso 1: Para cada punto (x, y) calcular x2 y xy

Paso 2: Sumar todas las x, y, x2 y xy, es decir, calcular Σx, Σy, Σx2 y Σxy (Σ significa sumar)

Paso 3: Calcular la pendiente m:

m = N Σ(xy) − Σx Σy N Σ(x2) − (Σx)2

(N es el número de puntos.)

Paso 4: Calcular la ordenada al origen b:

b = Σy − m Σx N

Paso 5: Ensamblar la ecuación de una recta

y = mx + b

¡Listo!

Ejemplo

¡Veamos un ejemplo para saber cómo hacerlo!

nieve o helado

Ejemplo: Samuel descubrió cuántas horas de sol frente a cuántos helados se vendieron en la tienda de lunes a viernes:

"x"
Horas de Sol
"y"
Helados vendidos
2 4
3 5
5 7
7 10
9 15

Encontremos la mejor m (pendiente) y b (intersección en y) que se adapte a esos datos.

y = mx + b

 

Paso 1: Para cada (x, y) calcular x2 y xy:

x y x2 xy
2 4 4 8
3 5 9 15
5 7 25 35
7 10 49 70
9 15 81 135

Paso 2: Sumar todas las x, y, x2 y xy (es decir, Σx, Σy, Σx2 y Σxy):

x y x2 xy
2 4 4 8
3 5 9 15
5 7 25 35
7 10 49 70
9 15 81 135
Σx: 26 Σy: 41 Σx2: 168 Σxy: 263

N (número de valores de datos) = 5

Paso 3: Calcular la pendiente m:

m = N Σ(xy) − Σx Σy N Σ(x2) − (Σx)2

= 5 x 263 − 26 x 41 5 x 168 − 262

= 1315 − 1066 840 − 676

= 249 164 = 1.5183...

Paso 4: Calcular la ordenada al origen b:

b = Σy − m Σx N

= 41 − 1.5183 x 26 5

= 0.3049...

Paso 5: Ahora escribimos la ecuación:

y = mx + b

y = 1.518x + 0.305

Veamos cómo resulta:

x y y = 1.518x + 0.305 error
2 4 3.34 −0.66
3 5 4.86 −0.14
5 7 7.89 0.89
7 10 10.93 0.93
9 15 13.97 −1.03

Aquí están los puntos (x, y) y la línea y = 1.518x + 0.305 en una gráfica:

ejemplo de mínimos cuadrados

¡Se ajusta bien!

Samuel escucha el pronóstico del tiempo que dice "esperamos 8 horas de sol mañana", por lo que utiliza la ecuación anterior para estimar que venderá

y = 1.518 x 8 + 0.305 = 12.45 helados

Samuel prepara una mezcla de cono de waffle para 14 helados, por si acaso. Mmmh...

¿Cómo funciona?

Funciona haciendo que el total de la suma de los cuadrados de cada error sea lo más pequeña posible (es por eso que se llama "mínimos cuadrados"):

ejemplo de mínimos cuadrados
La línea recta minimiza la suma de los errores al cuadrado.

Entonces, cuando elevamos al cuadrado cada uno de esos errores y los sumamos, el total es el más pequeño posible.

Puedes imaginar (pero no con precisión) cada punto de datos conectado a una barra recta por resortes:

ejemplo de mínimos cuadrados
¡Boing!

Valores atípicos

¡Ten cuidado! Los mínimos cuadrados son sensibles a los valores atípicos. Un valor extraño y alejado podría acercar la línea hacia él.

Usa nuestro programa

Juega y aprende con la Calculadora Gráfica de Mínimos Cuadrados

No solo es para rectas

Esta idea puede usarse en muchas otras áreas, no solo en líneas.

mínimos cuadrados, gráfica de un círculo
Un "círculo de regresión"


¡Pero las fórmulas (y los pasos dados) serán muy diferentes!