Unidad 5 Regresión lineal simple
La regresión lineal simple (RLS) consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como \(Y\) y a la variable predictora o independiente como \(X\). (Devore, 2008, página 450)
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
\[\begin{equation} Y_i = \beta_0 + \beta_1X_i + \epsilon_i \text{ , }i = 1,\ldots ,n \text{ , } \epsilon_i \sim N(0,\sigma^2) \end{equation}\]
5.1 Covarianza
Es posible entender las relaciones entre dos o más variables, gráficamente y a través de estadísticos. En esta sección seabarcarán las relaciones lineales entre dos variables cuantitativas, utilizando la Covarianza y la Correlación. El gráfico que apoya a estas dos medidas es el gráfico de dispersión.
La Covarianza entre dos variables de la misma muestra, se puede calcular como:
\[\begin{equation} S_{XY} = \displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1} \end{equation}\]
o bien
\[\begin{equation} S_{XY} = \displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n} \end{equation}\]
La utilidad radica en el signo de esta expresión, el cual, da a conocer el tipo de relación lineal entre las variables \(X\) e \(Y\). Para interpretar esta expresión se puede usar la siguiente regla.
Si \(S_{XY}=0\), entonces no existe relación lineal entre \(X\) e \(Y\).
Si \(S_{XY}>0\), entonces existe una relación lineal directa o positiva entre \(X\) e \(Y\). Esto es, a mayores valores de \(X\), en promedio tenemos mayores valores de \(Y\) y viceversa.
Si \(S_{XY}<0\), entonces existe una relación lineal inversa o negativa entre \(X\) e \(Y\). Esto es, a mayores valores de \(X\), en promedio tenemos menores valores de \(Y\) y viceversa.
5.2 Correlación
Aunque con el signo de la covarianza podemos detectar el tipo de relación entre dos variables, al depender de las unidades de \(X\) y de \(Y\), no sabemos si corresponde a un relación fuerte o débil (es decir, la forma lineal es fuertemente o débilmente pronunciada); sólo sabemos el signo. Para solucionar esto, estandarizamos los valores. La fórmula que realiza este proceso utilizando la covarianza es
\[\begin{equation} r_{XY} = \frac{S_{XY}}{S_{X}S_{Y}} \end{equation}\]
Este estadístico, también conocido como Coeficiente de correlación de Pearson se encuentra entre -1 y 1.
Si \(r_{XY}=0\), entonces no hay relación lineal o con relación lineal débil entre las variables.
Si \(r_{XY}\) es cercano a 1, entonces hay relación lineal directa y fuerte entre variables.
Si \(r_{XY}\) es cercano a −1, entonces hay relación lineal inversa y fuerte entre las variables.
Una regla más fina sobre la intensidad de la relación es (Ratner, 2009):
\(r_{XY}=0\) indica que no hay relación lineal.
\(r_{XY}=1\) indica una relación lineal positiva perfecta: a medida que una variable aumenta en sus valores, la otra variable también aumenta en sus valores a través de una regla lineal exacta.
\(r_{XY}=-1\) indica una relación lineal negativa perfecta: a medida que una variable aumenta en sus valores, la otra variable disminuye en sus valores a través de una regla lineal exacta.
Los valores entre 0 y 0.3 (0 y -0.3) indican una relación lineal positiva (negativa) débil a través de una regla lineal inestable.
Valores entre 0.3 y 0.7 (-0.3 y -0.7) una relación lineal positiva (negativa) moderada a través de una regla lineal difusa-firme.
Los valores entre 0.7 y 1.0 (-0.7 y -1.0) indican una fuerte relación lineal positiva (negativa) a través de una regla lineal firme.
Ejemplo: Usando tabla de posiciones campeonato femenino