1. ¿Por qué estudiar dos variables a la vez?
Cuando cada individuo (persona, máquina, planta…) aporta dos medidas –por ejemplo horas de estudio y nota, temperatura y consumo eléctrico– queremos saber:
- ¿Existe relación?
- ¿De qué tipo y qué intensidad?
- ¿Podemos predecir una variable a partir de la otra?
2. Datos brutos y tabla de frecuencias conjuntas
| x (variable 1) | y (variable 2) | Ejemplo práctico |
|---|---|---|
| Horas de estudio | Nota | (3 h , 6) (5 h , 8)… |
Se puede agrupar en clases para grandes muestras, anotando la frecuencia conjunta nijn_{ij}nij.
3. Diagrama de dispersión (nube de puntos)
- Dibuja un punto (xi,yi)(x_i , y_i)(xi,yi) por individuo.
- Patrones visuales:
- Ascendente → relación directa.
- Descendente → inversa.
- Nube amorfa → relación débil/nula.
Contexto – Primer vistazo rápido antes de calcular nada.
4. Covarianza SxyS_{xy}Sxy
Mide tendencia conjunta de x e y a desviarse de sus medias. Sxy = 1n∑(xi−xˉ)(yi−yˉ)S_{xy} \;=\; \frac{1}{n}\sum (x_i-\bar x)(y_i-\bar y)Sxy=n1∑(xi−xˉ)(yi−yˉ)
| Signo de SxyS_{xy}Sxy | Interpretación |
|---|---|
| + | x↑ suele implicar y↑ |
| – | x↑ suele implicar y↓ |
| ≈0 | Sin relación lineal clara |
5. Coeficiente de correlación lineal de Pearson rrr
r = SxySxx Syy;−1≤r≤1r \;=\;\frac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}}\quad ; \quad -1 \le r \le 1r=SxxSyySxy;−1≤r≤1
- Sxx=1n∑(xi−xˉ)2S_{xx} = \frac{1}{n}\sum (x_i-\bar x)^2Sxx=n1∑(xi−xˉ)2 (varianza x)
- SyyS_{yy}Syy idem para y.
| Valor r | Fuerza y sentido |
|---|---|
| 0.0 – ±0.3 | muy débil / nula |
| ±0.3 – ±0.6 | moderada |
| ±0.6 – ±0.8 | fuerte |
| ±0.8 – 1 | muy fuerte |
OJO – rrr sólo mide linealidad. Una relación curva perfecta puede dar r≈0.
6. Recta de regresión y=mx+ny = m x + ny=mx+n
Objetivo – dar la mejor línea recta (mínimos cuadrados) que “pasa por” la nube.
| Parámetro | Fórmula “corta” |
|---|---|
| Pendiente mmm | m=SxySxxm = \dfrac{S_{xy}}{S_{xx}}m=SxxSxy |
| Ordenada nnn | n=yˉ−m xˉn = \bar y – m\,\bar xn=yˉ−mxˉ |
Significado contextual:
- mmm: cambio promedio en y por cada unidad de x.
- nnn: valor de y cuando x = 0 (si tiene sentido).
Predicción – para un xnuevox_{\text{nuevo}}xnuevo, calcula yest=mxnuevo+ny_{\text{est}} = m x_{\text{nuevo}} + nyest=mxnuevo+n.
(No extrapolar muy lejos del rango observado.)
7. Coeficiente de determinación R2R^2R2
En regresión simple R2=r2R^2 = r^2R2=r2.
- Mide qué porcentaje de variabilidad de y explica la recta.
- Ej.: r=0.7r=0.7r=0.7 → R2=0.49R^2=0.49R2=0.49 ⇒ 49 % de la variación de y se explica linealmente con x.
8. Contraste “correlación ≠ causalidad”
- Alta correlación no implica que x cause y.
- Puede haber variable oculta (hielo-ventas de bebidas).
- Analizar el contexto y usar experimentos para probar causalidad.
9. Procedimiento resumido de análisis lineal
- Calcular xˉ\bar xxˉ, yˉ\bar yyˉ.
- Hallar Sxx,Syy,SxyS_{xx}, S_{yy}, S_{xy}Sxx,Syy,Sxy.
- Obtener rrr y juzgar intensidad.
- Derivar m,nm, nm,n → ecuación de regresión.
- Graficar nube + recta.
- Interpretar mmm, R2R^2R2.
- Hacer predicciones dentro del intervalo de x medido.
10. Errores frecuentes
| Error | Recordatorio |
|---|---|
| Calcular rrr con datos de x, y desordenados | Parejas deben corresponder fila a fila |
| Usar grados de libertad n en vez de n–1 | Con muestras pequeñas usa divisores correctos (depende de fórmula adoptada) |
| Extrapolar sin aviso | Señalar que fuera del rango los resultados son dudosos |
| Concluir causa directa | Añadir frase “la correlación no implica causalidad” |
