class: center, middle, inverse, title-slide .title[ # Introducción al Lenguaje R ] .subtitle[ ## 2. Introducción a los Modelos Lineales ] .author[ ### Santiago Benitez-Vieyra ] --- background-color: #E6F4BC class: center, middle ## Introducción General --- ### ¿Qué es un modelo? - **EconomÃa del pensamiento.** Presentar sets de datos en una forma fácil de entender, revelando estructuras o relaciones. - **Inferir un fenómeno no observado.** Asumen cierta *uniformidad de la naturaleza* (descripta por un modelo probabilÃstico) para permitir un razonamiento inductivo. Un *modelo estadÃstico* es una aproximación instrumental que permite resolver esta tarea. > G. Box: "Todos los modelos están equivocados, algunos son útiles." --- ### ¿Qué significan las diferentes maneras de utilizar un modelo? - Bajo el marco **Frecuentista** la probabilidad es una propiedad colectiva, indistinguible de la frecuencia. Por lo tanto, una hipótesis no puede ser aceptad o rechazada, pero puede ser expresada con la lógica de los *mundos posibles*: ¿En cuátos "mundos" la hipótesis nula es rechazada? eso es el valor *P*. - Entonces, la estadÃstica frecuentista no juzaga la verdad o falsedad de una hipótesis, pero itenta proporcionar reglas sistemáticas para decidir sobre los modelos probabilÃsticos que originan los datos. *Provee de herramientas de diagnóstico*. - Finalmente, bajo el frecuentismo la *predicción* es solamente una subtarea dentro del marco general de la inferencia. Más adelante veremos cómo se vuelve la tarea central en el aprendizaje maquinal. --- ### Pero no confiar ciegamente... [American Statistical Association declaration on P-values](https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108#d1e920) * Los valores *P* pueden indicar la incompatibilidad de los datos con un modelo estadÃstico determinado. * Los valores *P* no miden la probabilidad de que la hipótesis estudiada sea cierta, ni la probabilidad de que los datos se hayan producido únicamente por azar. * Las conclusiones cientÃficas y las decisiones no deben basarse únicamente en si un valor *P* supera un umbral especÃfico. * Una inferencia adecuada requiere información completa y transparencia. * Un valor *P*, o significación estadÃstica, no mide el tamaño de un efecto o la importancia de un resultado. * Por sà mismo, un valor *P* no proporciona una buena medida de la evidencia respecto a un modelo o hipótesis. --- background-color: #E6F4BC class: center, middle ## Modelos Lineales --- ### Introducción a los Modelos Lineales  **Es Solo Un Modelo Lineal! (ESUML!)** --- ### Introducción a los Modelos Lineales  --- background-color: #FFEEBD ## Modelos Lineales Respuesta = Modelo + Error `$$Y_{i} = \beta_{0} + \beta_{1}X_{1i} + \epsilon_{i}$$` * El modelo es lineal porque los parámetros se combinan linealmente. * Ningún parámetro es multiplicado o dividido por otro o aparece como exponente. * Las variables independientes pueden ser no-lineales (por lo cual el modelo lineal puede representar relaciones curvilÃneas). --- background-color: #FFEEBD ## Regresión lineal simple `$$Y_{i} = \beta_{0} + \beta_{1}X_{1i} + \epsilon_{i}$$` `$$X_{i} \sim continua$$` * Dos variables están relacionadas. Una de ellas informa sobre la otra * La variable independiente brinda una explicación sobre la dependiente * La variable independiente causa la dependiente --- class: center, middle <!-- --> --- class: center, middle <!-- --> --- class: center, middle <!-- --> --- ``` ## ## Call: ## lm(formula = Y ~ X) ## ## Residuals: ## Min 1Q Median 3Q Max ## -19.073 -6.835 -0.875 5.806 32.904 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 101.33319 5.00127 20.261 < 2e-16 *** ## X -0.42624 0.05344 -7.976 2.85e-12 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 9.707 on 98 degrees of freedom ## Multiple R-squared: 0.3936, Adjusted R-squared: 0.3874 ## F-statistic: 63.62 on 1 and 98 DF, p-value: 2.853e-12 ``` --- class: center, middle <!-- --> --- background-color: #FFEEBD ### Ajuste del modelo `$$\color{green}{{SS_{modelo}} = \sum(\hat{y_{i}}-\bar{y})^2}$$` `$$\color{red}{SS_{residual} = \sum({y_{i}}-\hat{y_{i}})^2}$$` `$$\color{blue}{SS_{total} = \sum({y_{i}}-\bar{y})^2}$$` `$$R^2 = \frac{SS_{modelo}}{SS_{total}}$$` `$$R^2 = 1 - \frac{SS_{residual}}{SS_{total}}$$` --- ### Ajuste del modelo * El `\(R^2\)` nos dice que proporción de la variación de la variable dependiente es explicada por la variación en la variable independiente. * El `\(F\)` del Anova y su `\(P\)` asociado nos dicen si la porción de la varianza explicada por la regresión es significativa. * El `\(t\)` y su `\(P\)` asociado indican la significancia del coeficiente de regresión. Esto es, prueban la hipótesis nula de que `\(\beta = 0\)`. --- ### Con una serie de supuestos... * La variable x es **medida sin error**. Es decir es una variable fija. * **Linealidad**. El valor de y para cada valor de x es descripto por una función lineal. * **Normalidad**. Para cada valor de x las y son independientes y se distribuyen normalmente. Por lo que… los residuos se distribuyen normalmente. * **Homogeneidad de varianzas**. La varianza alrededor de la lÃnea de regresión es constante e independiente de los valores de x o y. * **Independencia**. Los valores de y y los errores son independientes unos de otros. --- class: center, middle <!-- --> --- class: center, middle <!-- --> --- ### Influencia * **Residuos:** miden la distancia desde el valor observado de y hasta la recta de regresión. * **Leverage:** es una medida de cuan extrema es una observación en x. Detecta outliers en x. * **Distancia de Cook o influencia:** combinación de las dos anteriores. Si un punto tiene un alto leverage y un gran error, es muy influyente. --- class: center, middle <!-- --> --- class: center, middle <!-- --> --- background-color: #FFEEBD ### Análisis de la varianza `$$Y_{ij} = \mu + \alpha_{i} + \epsilon_{ij}$$` * Examinar la contribución relativa de distintas fuentes de variación. * Probar la hipótesis nula de la media poblacional y las medias para cada nivel del factor son iguales. --- ### (Pequeña nota histórica)  *Iris* fue publicado por primera vez en **1936** por Ronald Fisher en el *Annals of Eugenics*. ProponÃa una metodologÃa para describir "rasgos deseables" en apoyo al programa eugenésico. --- <img src="palmer.png" width="90%" alt=""/> Desde 2021 uso como ejemplo los datos de pingüinos de tres especies (de Adelia, de barbijo y de vincha) del Archipiélago de Palmer (Antártida), a traves del paquete *palmerpenguins*. --- <!-- --> --- <!-- --> --- <!-- --> --- <!-- --> --- background-color: #FFEEBD ### Ajuste del modelo `$$\color{green}{{SS_{modelo}} = \sum(\hat{y_{i}}-\bar{y})^2}$$` `$$\color{red}{SS_{residual} = \sum({y_{i}}-\hat{y_{i}})^2}$$` `$$\color{blue}{SS_{total} = \sum({y_{i}}-\bar{y})^2}$$` `$$R^2 = \frac{SS_{modelo}}{SS_{total}}$$` `$$R^2 = 1 - \frac{SS_{residual}}{SS_{total}}$$` --- ### Ajuste del modelo ``` ## Analysis of Variance Table ## ## Response: bill_length_mm ## Df Sum Sq Mean Sq F value Pr(>F) ## species 2 7194.3 3597.2 410.6 < 2.2e-16 *** ## Residuals 339 2969.9 8.8 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ``` --- ### Ajuste del modelo ``` ## ## Call: ## lm(formula = bill_length_mm ~ species, data = penguins) ## ## Residuals: ## Min 1Q Median 3Q Max ## -7.9338 -2.2049 0.0086 2.0662 12.0951 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 38.7914 0.2409 161.05 <2e-16 *** ## speciesChinstrap 10.0424 0.4323 23.23 <2e-16 *** ## speciesGentoo 8.7135 0.3595 24.24 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.96 on 339 degrees of freedom ## (2 observations deleted due to missingness) ## Multiple R-squared: 0.7078, Adjusted R-squared: 0.7061 ## F-statistic: 410.6 on 2 and 339 DF, p-value: < 2.2e-16 ``` --- background-color: #FFEEBD ### ¿Por qué hay una salida de regresión para un ANOVA? `$$Y_{ij} = \mu + \alpha_{i} + \epsilon_{ij}$$` `$$Y_{ij} = \beta_{0} + \beta_{1}X_{i1} + ... \beta_{j}X_{ij} + \epsilon_{ij}$$` --- background-color: #FFEEBD ### ¿Por qué hay una salida de regresión para un ANOVA? `$$Y_{ij} = \beta_{0} + \beta_{dummy1}X_{i1} + \beta_{dummy2}X_{i, dummy2} + \epsilon_{ij}$$` `$$Y_{i, Adelie} = \beta_{0} + \epsilon_{ij}$$` `$$Y_{i, Chinstrap} = \beta_{0} + \beta_{dummy1} + \epsilon_{ij}$$` `$$Y_{i, Gentoo} = \beta_{0} + \beta_{dummy2} + \epsilon_{ij}$$` ### Dummies 1. **dummy 1** Adelia = 0, Barbijo = 1, Vincha = 0 2. **dummy 2** Adelia = 0, Barbijo = 0, Vincha = 1 3. Si dummy 1 = 0 y dummy 2 = 0, entonces es un pingüino de Adelia! --- ``` ## ## Call: ## lm(formula = bill_length_mm ~ species, data = penguins) ## ## Residuals: ## Min 1Q Median 3Q Max ## -7.9338 -2.2049 0.0086 2.0662 12.0951 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 38.7914 0.2409 161.05 <2e-16 *** ## speciesChinstrap 10.0424 0.4323 23.23 <2e-16 *** ## speciesGentoo 8.7135 0.3595 24.24 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.96 on 339 degrees of freedom ## (2 observations deleted due to missingness) ## Multiple R-squared: 0.7078, Adjusted R-squared: 0.7061 ## F-statistic: 410.6 on 2 and 339 DF, p-value: < 2.2e-16 ``` --- ### Ajuste del modelo * El `\(R^2\)` nos dice que proporción de la variación de la variable dependiente es explicada por la variación en la variable independiente. * El `\(F\)` del Anova y su `\(P\)` asociado nos dicen si la porción de la varianza explicada por la regresión es significativa. * El t y su P asociado indican la significancia del coeficiente de la *dummy*. Esto es, si la diferencia entre un tratamiento y el tratamiento (especie) tomado como referencia es significativa. --- <!-- --> --- <!-- --> --- ### Los diagnósticos que todos odiamos ``` r library(palmerpenguins); data("penguins") fit <- lm(bill_length_mm ~ species, data = penguins, na.action = na.exclude) shapiro.test(residuals(fit)) ``` ``` ## ## Shapiro-Wilk normality test ## ## data: residuals(fit) ## W = 0.98903, p-value = 0.01131 ``` ``` r bartlett.test(residuals(fit) ~ penguins$species) ``` ``` ## ## Bartlett test of homogeneity of variances ## ## data: residuals(fit) by penguins$species ## Bartlett's K-squared = 5.6179, df = 2, p-value = 0.06027 ``` ---