Los datos del archivo hormigas.txt corresponden a un estudio donde se pretende determinar si la riqueza de especies de hormigas (Srich) es afectada por el tipo de hábitat (Habitat), la latitud (Latitude) y la elevación (Elevation). Dado que la riqueza de especies es claramente un dato de conteo, se propone utilizar un modelo lineal generalizado con estructura de errores Poisson.

Caso1

library(ggplot2)
ants <- read.table("hormigas.txt", header = TRUE)

# modelo
gfit1 <- glm(Srich ~ Habitat + Latitude + Elevation, data = ants, family = poisson)

# Tabla "tipo regresión" valores de los parámetros y prueba de Wald
summary(gfit1)

# Tabla de análisis de la devianza
anova(gfit1, test = "Chisq")

# Significancia del modelo completo (cociente de verosimilitud)
gfit0 <- glm(Srich ~ 1, data = ants, family = poisson (link = log))
anova(gfit0, gfit1, test = "Chisq")

# Cociente de verosimilitud (con lrtest)
library(lmtest)
lrtest(gfit0, gfit1)

# DIAGNÓSTICOS COMUNES
layout(matrix(1:4, 2, 2))
plot(gfit1)
layout(1)

library(car)
vif(gfit1)

# DIAGNÓSTICOS PARA MLG
# 1¿Es adecuada la relación media-varianza? (¿es el parámetro de   
# dispersión = a 1?)
gfit2 <- glm(Srich ~ Habitat + Latitude + Elevation, data = ants, 
             family = quasipoisson(link=log))

summary(gfit2)
anova(gfit2, test = "F")

# 2 ¿Es lineal la relación?
g1 <- ggplot(data.frame(res = resid(gfit2), pre = predict(gfit2)),
             aes(x = pre, y = res)) + geom_point() + stat_smooth(method="gam")
g1

# INTERPRETACIÓN DE LOS PARÁMETROS
be <- gfit1$coefficients
exp(be)

IC <- confint(gfit1)
exp(IC)

Ejercicios

  1. Utilizar el archivo “abejas.txt” para examinar si el número de abejas es influenciado por el número de flores de la planta (flores) y la intensidad de la fragancia producida por las flores (olor). Ajustar el modelo completo, examinar la colinealidad de las variables, probar la presencia de sobredispersión, probar la adecuación del enlace, seleccionar el modelo más adecuado, interpretar los gráficos de bondad de ajuste y los parámetros del modelo, construir un gráfico para representar los resultados (en la escala de la respuesta). Fuente: Benitez-Vieyra S, Glinos E, Medina AM. et al. 2012. Evol Ecol 26:1451-1468.

  2. Utilizar los datos del archivo horseshoecrab.txt para probar si el número de machos satélites (nsatellites) que rodean cada hembra se relaciona con el estado de las espinas de las hembras (spine), con su diámetro (width.cm), su peso (mass.kg) o su color (color). Ajustar el modelo siguiendo los pasos que vimos y seleccionar el mejor modelo con el método de su preferencia. Fuente: Brockmann HJ. 1996. Satellite male groups in horseshoe crabs, Limulus polyphemus. Ethology 102:1-21. NOTA: Los valores de GVIF surgen de la presencia de fariables con más de 1 grado de libertad (en este caso, factores). La columna de GVIF^(1/(2*Df)) introduce valores comparables entre las variables, independientemente de sus grados de libertad. Sin embargo, para aplicar las reglas clásicas de detección de colinealidad, estos valores deben elevarse al cuadrado ya que los GVIF^(1/(2*Df)) son “analagous to taking the square root of the usual variance-inflation factor”.

  3. Utilizar los datos del archivo firdata.txt para ajustar un modelo donde se examine la relación entre el número de conos producidos por Abies balsamea (TOTCONES) en función del diámetro a la altura del pecho (DBH) de estos árboles. Como es de esperarse (finja sorpresa) es probable que la presencia de sobredispersión lo lleve a utilizar un modelo binomial negativo (función glm.nb del paquete MASS). Utilizar una prueba de cociente de verosimilitud para examinar si el modelo binomial negativo es mejor que el modelo poisson. El desarrollo de la prueba se adjunta abajo. Fuente: Silvertown J, Dodd M. 1999. Evolution of life history in balsam fir (Abies balsamea) in subalpine forests. Proc. Roy. Soc. B 266:729-733. (a través del paquete emdbook)

L.po<-logLik(nombre_del_modelo_poisson)
L.nb<-logLik(nombre_del_modelo_binomial_neg)
d<-2*(L.nb-L.po)
d
pchisq(d[1], df=1, lower.tail=F)/2
  1. ¿Cuál es la modificación en los gráficos de diagnóstico que ocurre al ajustar un modelo que tiene en cuenta la sobredispersión? Comparar los gráficos de modelos Poisson, Quasipoisson y Binomial Negativos de los ejercicios 2 y 3 para saberlo.

  2. ¿Tiene usted datos de conteos, inflados o no e zeros? (n > 30). Discuta con sus compañeres de mesa, prestando especial atención a: a) el proceso ue originaron los datos, b) una estrategia global de análisis, c) las posibles fuentes de sobredispersión. Presente sus datos con gráficos y análisis (o al menos los pasos a seguir en el análisis). En caso de utilizar datos inflados en zeros recuerde instalar el paquete pscl.