ESTADÍSTICA BIDIMENSIONAL: REGRESIÓN LINEAL Y CORRELACIÓN

1. ¿Por qué estudiar dos variables a la vez?

Cuando cada individuo (persona, máquina, planta…) aporta dos medidas –por ejemplo horas de estudio y nota, temperatura y consumo eléctrico– queremos saber:

¿Existe relación?
¿De qué tipo y qué intensidad?
¿Podemos predecir una variable a partir de la otra?

2. Datos brutos y tabla de frecuencias conjuntas

x (variable 1)	y (variable 2)	Ejemplo práctico
Horas de estudio	Nota	(3 h , 6) (5 h , 8)…

Se puede agrupar en clases para grandes muestras, anotando la frecuencia conjunta nijn_{ij}nij.

3. Diagrama de dispersión (nube de puntos)

Dibuja un punto (xi,yi)(x_i , y_i)(xi,yi) por individuo.
Patrones visuales:
- Ascendente → relación directa.
- Descendente → inversa.
- Nube amorfa → relación débil/nula.

Contexto – Primer vistazo rápido antes de calcular nada.

4. Covarianza SxyS_{xy}Sxy

Mide tendencia conjunta de x e y a desviarse de sus medias. Sxy = 1n∑(xi−xˉ)(yi−yˉ)S_{xy} \;=\; \frac{1}{n}\sum (x_i-\bar x)(y_i-\bar y)Sxy=n1∑(xi−xˉ)(yi−yˉ)

Signo de SxyS_{xy}Sxy	Interpretación
+	x↑ suele implicar y↑
–	x↑ suele implicar y↓
≈0	Sin relación lineal clara

5. Coeficiente de correlación lineal de Pearson rrr

r = SxySxx Syy;−1≤r≤1r \;=\;\frac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}}\quad ; \quad -1 \le r \le 1r=SxxSyySxy;−1≤r≤1

Sxx=1n∑(xi−xˉ)2S_{xx} = \frac{1}{n}\sum (x_i-\bar x)^2Sxx=n1∑(xi−xˉ)2 (varianza x)
SyyS_{yy}Syy idem para y.

Valor r	Fuerza y sentido
0.0 – ±0.3	muy débil / nula
±0.3 – ±0.6	moderada
±0.6 – ±0.8	fuerte
±0.8 – 1	muy fuerte

OJO – rrr sólo mide linealidad. Una relación curva perfecta puede dar r≈0.

6. Recta de regresión y=mx+ny = m x + ny=mx+n

Objetivo – dar la mejor línea recta (mínimos cuadrados) que “pasa por” la nube.

Parámetro	Fórmula “corta”
Pendiente mmm	m=SxySxxm = \dfrac{S_{xy}}{S_{xx}}m=SxxSxy
Ordenada nnn	n=yˉ−m xˉn = \bar y – m\,\bar xn=yˉ−mxˉ

Significado contextual:

mmm: cambio promedio en y por cada unidad de x.
nnn: valor de y cuando x = 0 (si tiene sentido).

Predicción – para un xnuevox_{\text{nuevo}}xnuevo, calcula yest=mxnuevo+ny_{\text{est}} = m x_{\text{nuevo}} + nyest=mxnuevo+n.
(No extrapolar muy lejos del rango observado.)

7. Coeficiente de determinación R2R^2R2

En regresión simple R2=r2R^2 = r^2R2=r2.

Mide qué porcentaje de variabilidad de y explica la recta.
Ej.: r=0.7r=0.7r=0.7 → R2=0.49R^2=0.49R2=0.49 ⇒ 49 % de la variación de y se explica linealmente con x.

8. Contraste “correlación ≠ causalidad”

Alta correlación no implica que x cause y.
Puede haber variable oculta (hielo-ventas de bebidas).
Analizar el contexto y usar experimentos para probar causalidad.

9. Procedimiento resumido de análisis lineal

Calcular xˉ\bar xxˉ, yˉ\bar yyˉ.
Hallar Sxx,Syy,SxyS_{xx}, S_{yy}, S_{xy}Sxx,Syy,Sxy.
Obtener rrr y juzgar intensidad.
Derivar m,nm, nm,n → ecuación de regresión.
Graficar nube + recta.
Interpretar mmm, R2R^2R2.
Hacer predicciones dentro del intervalo de x medido.

10. Errores frecuentes

Error	Recordatorio
Calcular rrr con datos de x, y desordenados	Parejas deben corresponder fila a fila
Usar grados de libertad n en vez de n–1	Con muestras pequeñas usa divisores correctos (depende de fórmula adoptada)
Extrapolar sin aviso	Señalar que fuera del rango los resultados son dudosos
Concluir causa directa	Añadir frase “la correlación no implica causalidad”