Call: lm(formula = CTPEA ~ MTE + FTE, data = dat)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.5838 0.8275 80.461 < 2e-16 ***
MTE 2.2988 0.3363 6.835 1.26e-11 ***
FTE 2.3357 0.2968 7.869 7.53e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.655 on 1293 degrees of freedom
Multiple R-squared: 0.1663, Adjusted R-squared: 0.1651
F-statistic: 129 on 2 and 1293 DF, p-value: < 2.2e-16
Call: lm(formula = CTPEA ~ MTE, data = dat)
Coefficients:
Estimate Std.Error t value Pr(>|t|)
(Intercept) 69.0110 0.7858 87.83 <2e-16 ***
MTE 3.8349 0.2802 13.68 <2e-16 ***
Residual standard error: 9.88 on 1294 degrees of freedom
*Multiple R-squared: 0.1264, Adjusted R-squared: 0.1257*
F-statistic: 187.3 on 1 and 1294 DF, p-value: < 2.2e-16
Call: lm(formula = CTPEA ~ FTE, data = dat)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 69.3649 0.7332 94.60 <2e-16 ***
FTE 3.5134 0.2460 14.29 <2e-16 ***
Residual standard error: 9.825 on 1294 degrees of freedom
*Multiple R-squared: 0.1362, Adjusted R-squared: 0.1355*
F-statistic: 204.1 on 1 and 1294 DF, p-value: < 2.2e-16
Call: lm(formula = CTPEA ~ MTE * FTE, data = dat)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 68.5897 1.6632 41.240 <2e-16 ***
MTE 1.3807 0.7411 1.863 0.0627 .
FTE 1.5474 0.6400 2.418 0.0158 *
MTE:FTE 0.3275 0.2356 1.390 0.1647
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.652 on 1292 degrees of freedom
Multiple R-squared: 0.1676, Adjusted R-squared: 0.1657
F-statistic: 86.7 on 3 and 1292 DF, p-value: < 2.2e-16
Podríamos estar midiendo efectos indirectos si omitimos efectos directos del modelo. Añadir o quitar variables del modelo puede cambiar el valor de los parámetros estimados y su significancia.
bill_length_mm | bill_depth_mm | flipper_length_mm | |
---|---|---|---|
bill_length_mm | 1.0000000 | 0.6433839 | 0.6611621 |
bill_depth_mm | 0.6433839 | 1.0000000 | 0.7065634 |
flipper_length_mm | 0.6611621 | 0.7065634 | 1.0000000 |
Usar r, no P.
vif
) son
iguales al inverso de la tolerancia (\(1/t\)).La raíz cuadrada de un vif indica cuánto más grande es el error estándar del parámetro comparado con cómo sería si el resto de las variables fueran ortogonales respecto a la primera.
x | |
---|---|
bill_length_mm | 1.996625 |
bill_depth_mm | 2.244212 |
flipper_length_mm | 2.336683 |
American Statistical Association declaration on P-values
\[AIC = -2 log(likelihood) + 2p\]
\[BIC = -2 log(likelihood) + log(n)p\]
Existe una fauna de criterios muy variada: Cp, DIC, AICc, BICc, \(R^2_{adj}\) etc. También se puede utilizar validación cruzada en vez de un criterio, que estima de forma directa el error de prueba.
Al modelo sólo con intercepto se le incorpora un creciente número de variables, hasta que la adición no provoca mejoras en el criterio elegido. El anteúltimo modelo es por lo tanto el mejor.
Al modelo más completo posible se le remueven variables hasta que la adición no provoca mejoras en el criterio elegido. El último modelo es por lo tanto el mejor.
Se construyen todos los modelos posibles y se elige el mejor de acuerdo a cierto criterio.
Se construyen todos los modelos posibles y se presenta el set de mejores modelos, dentro de determinado rango de criterios.
\[RSS = \sum_{i = 1}^{n}(y_i - \beta_0 - \sum_{j = 1}^{p} \beta_jx_{ij})^2\]
\[RSS + \lambda \sum_{j = 1}^{p} \beta_j^2\]
\[RSS + \lambda \sum_{j = 1}^{p} |\beta_j|\]