Información

¿Por qué estimar los coeficientes de selección lineales y completos (lineales, cuadráticos y correlacionales) por separado?


"Luego ajustamos una regresión lineal que incluía los tres rasgos de la historia de vida para estimar el vector de gradientes de selección lineal, β, para cada sexo (Lande y Arnold 1983). Un modelo de regresión cuadrática que incorpora todos los términos lineales, cuadráticos y de productos cruzados luego se utilizó para estimar la matriz de gradientes de selección no lineal, γ, para cada sexo ".

Esto es del artículo Evidencia de un fuerte conflicto sexual intralocus en la polilla de la harina de la India, Ploida interpunctella. No estoy seguro de por qué estiman estos gradientes por separado en lugar de tomarlos solo del modelo completo, ¿alguna sugerencia? ¿Es esto normal o lo han hecho por alguna razón?

Para un trabajo similar, vea estos dos artículos:

  • Gosden et al, que parece utilizar solo los gradientes lineales de un modelo con el sexo como efecto.

  • Stearns et al, que utiliza estimaciones lineales, cuadráticas y correlacionales de un modelo de regresiones múltiples por sexo (similar al artículo principal que cito primero, pero no utiliza un modelo de términos lineales únicamente para el coeficiente lineal).

Le envié por correo al autor correspondiente en el documento citado para preguntarle por qué, le haré saber lo que dice. si el responde


Esto sigue directamente el consejo de Lande y Arnold (1983), diciendo:

La regresión lineal múltiple se puede utilizar primero para estimar las fuerzas de la selección direccional, $ beta $, y sus errores estándar. Luego, se puede usar una regresión múltiple cuadrática (16) o (Al) para estimar las fuerzas de la selección estabilizadora, $ gamma $, con sus errores estándar. La regresión (16) proporciona la mejor aproximación cuadrática a la superficie selectiva (aunque las estimaciones válidas de $ beta $ solo pueden obtenerse a partir de una regresión puramente lineal o mediante el uso de la regresión ortogonal (Al)).

La razón es que las estimaciones de la selección de dirección están influenciadas por los términos de orden superior en el modelo completo que incluye la selección cuadrática y correlacional y, por lo tanto, el modelo lineal tiene las mejores estimaciones del cambio en el valor medio durante una generación de selección ($ s = bar {z} _ {después} - bar {z} _ {antes} $). Sin embargo, el modelo completo es la mejor representación de la superficie de fitness. También existen otros métodos para aproximar la superficie de fitness.

Para que conste, utilicé el mismo enfoque en mi tesis de maestría hace muchos años.


Introducción al análisis de regresión multivariante

Las estadísticas se utilizan en medicina para la descripción e inferencia de datos. Las estadísticas inferenciales se utilizan para responder preguntas sobre los datos, para probar hipótesis (formulando la hipótesis alternativa o nula), para generar una medida de efecto, típicamente una razón de tasas o riesgos, para describir asociaciones (correlaciones) o para modelar relaciones (regresión ) dentro de los datos y, en muchas otras funciones. Por lo general, las estimaciones puntuales son medidas de asociaciones o de la magnitud de los efectos. La confusión, los errores de medición, el sesgo de selección y los errores aleatorios hacen poco probable que las estimaciones puntuales sean iguales a las verdaderas. En el proceso de estimación, el error aleatorio no se puede evitar. Una forma de tener en cuenta es calcular los valores p para un rango de posibles valores de parámetros (incluido el nulo). El rango de valores, para el cual el valor p excede un nivel alfa especificado (típicamente 0.05) se llama intervalo de confianza. Un procedimiento de estimación de intervalo producirá, en el 95% de las repeticiones (estudios idénticos en todos los aspectos, excepto el error aleatorio), límites que contienen los parámetros verdaderos. Se argumenta que la pregunta de si el par de límites producidos a partir de un estudio contiene el parámetro verdadero no podría ser respondida por la teoría ordinaria (frecuentista) de los intervalos de confianza 1. Los enfoques frecuentes derivan estimaciones utilizando probabilidades de datos (valores p o verosimilitudes) como medidas de compatibilidad entre datos e hipótesis, o como medidas del apoyo relativo que los datos proporcionan a las hipótesis. Otro enfoque, el bayesiano, utiliza datos para mejorar las estimaciones existentes (anteriores) a la luz de nuevos datos. El uso adecuado de cualquier enfoque requiere una interpretación cuidadosa de las estadísticas 1, 2.

El objetivo de cualquier análisis de datos es extraer de la información en bruto la estimación precisa. Una de las preguntas más importantes y comunes sobre si existe una relación estadística entre una variable de respuesta (Y) y las variables explicativas (Xi). Una opción para responder a esta pregunta es emplear análisis de regresión con el fin de modelo su relación. Hay varios tipos de análisis de regresión. El tipo de modelo de regresión depende del tipo de distribución de Y si es continuo y aproximadamente normal usamos modelo de regresión lineal si es dicotómico usamos regresión logística si Poisson o multinomial usamos análisis log-lineal si datos de tiempo al evento en presencia de casos censurados (tipo supervivencia) utilizamos la regresión de Cox como método de modelado. Mediante el modelado, intentamos predecir el resultado (Y) en función de los valores de un conjunto de variables predictoras (Xi). Estos métodos nos permiten evaluar el impacto de múltiples variables (covariables y factores) en un mismo modelo 3, 4.

En este artículo nos enfocamos en la regresión lineal. La regresión lineal es el procedimiento que estima los coeficientes de la ecuación lineal, involucrando una o más variables independientes que mejor predicen el valor de la variable dependiente que debe ser cuantitativa. La regresión logística es similar a una regresión lineal, pero se adapta a modelos en los que la variable dependiente es dicotómica. Los coeficientes de regresión logística se pueden utilizar para estimar las razones de probabilidades para cada una de las variables independientes del modelo.


La selección correlacional en el tamaño y el tiempo de desarrollo es inconsistente en las primeras etapas de la vida.

El tamaño y el tiempo de desarrollo son rasgos de importancia universal. Sin embargo, las tendencias evolutivas en el tiempo de desarrollo a menudo se ven como subproductos alométricos y fisiológicos del tamaño inicial, cuando la teoría del ciclo de vida predice que ambos rasgos son objetivos de selección y evolucionan de forma adaptativa a través de efectos opuestos sobre la aptitud. Sorprendentemente, esta predicción rara vez se ha probado desentrañando los efectos directos e indirectos del tamaño y el tiempo de desarrollo en la aptitud, según sea necesario para comprender la selección de cada rasgo. Aquí, en un fertilizante externo marino que proporciona un alcance novedoso para tales pruebas, medimos la selección direccional, cuadrática y correlacional que actúa sobre el tamaño temprano (de embriones y larvas post-eclosión) y el tiempo de desarrollo (desde la fertilización hasta la eclosión) a través de la supervivencia de los juveniles. en el campo. Encontramos poca selección direccional actuando sobre los rasgos durante este episodio selectivo. Más bien, la selección es principalmente correlacional, apuntando a combinaciones de tiempo de desarrollo y tamaño post-desarrollo de una manera que actúa en contra de su correlación positiva ya débil, y eventualmente podría generar una correlación negativa entre ellos si es lo suficientemente persistente. La falta de selección correlacional en combinaciones de tamaño de embrión y tiempo de desarrollo, por el contrario, sugiere que las limitaciones fisiológicas o alométricas explican más probablemente su asociación positiva. Por lo tanto, ni la teoría de la historia de vida ni los principios de la alometría y la fisiología por sí solos pueden predecir la evolución del tamaño y el tiempo de desarrollo, lo que garantiza una mayor apreciación de la tensión entre las explicaciones adaptativas y no adaptativas de las tendencias evolutivas en estos rasgos.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Métodos

Nosotros estudiamos A. remigis en dos arroyos en la Estación de Investigación de la Universidad McGill en Mont St.-Hilaire, Quebec, Canadá, a unos 35 km al SE de Montreal (Fig.1), que sustentan poblaciones genéticamente distintas de A. remigis (48). El área de estudio en South Creek fue idéntica a la utilizada por 49), incluyendo un área de solo recaptura superior (30 m de largo), un área de marca-recaptura central (100 m) y un área de solo recaptura inferior (100 m). En West Creek, las áreas tienen 50, 200 y 100 m de largo, respectivamente. En ambos arroyos, las áreas de estudio están delimitadas por barreras a la dispersión, como cascadas. Ya que A. remigis en estos arroyos rara vez se mueven más de 100 m desde donde se capturaron por primera vez (18), es poco probable que los individuos marcados en las áreas de marca central-recaptura se muevan fuera de las áreas de estudio. No obstante, se realizaron búsquedas mensuales de 100 a 200 m más allá de las áreas de estudio en busca de individuos marcados. Menos del 1% de los individuos marcados se observaron alguna vez fuera del área de estudio y, por lo tanto, es poco probable que la muerte y la dispersión se confundan en este estudio.

Sitio de estudio en Mont St.-Hilaire, Quebec, Canadá. Las áreas de estudio incluyeron la extensión de los arroyos indicados, sin incluir los afluentes (que tenían pocos o ningún zancudo).

Las áreas de estudio fueron cuidadosamente buscadas semanalmente A. remigis, y se registró el número de cada adulto marcado. Todos los adultos sin marcar encontrados en las áreas de marca-recaptura fueron capturados usando redes de mano, sexados, fotografiados en un aspecto ventral y marcados con un número único en la superficie dorsal usando pintura de esmalte (ver 49, 50). Estas marcas no tienen efectos detectables sobre la supervivencia o el éxito del apareamiento (69 9 I. M. Ferguson, datos no publicados). Para cada individuo, la longitud total, la longitud de los genitales, la longitud del abdomen, la longitud del tórax y la longitud (media) del mesofemur se midieron a partir de los negativos fotográficos utilizando un sistema de digitalización computarizado con software MTV (66). Las definiciones de estos componentes se detallan en 49, 50). La repetibilidad de estas mediciones es de al menos 0,97 (R. F. Preziosi, datos no publicados).

Los adultos fueron seguidos a lo largo de dos generaciones completas. El muestreo continuó mientras los adultos estuvieron activos en la superficie del agua: del 15 de julio al 19 de octubre de 1993, del 27 de abril al 12 de octubre de 1994 y del 12 de abril al 18 de julio de 1995. Las capturas (36) en la temporada reproductiva variaron de 67% a 91% con una media de 79%, lo que indica que la probabilidad media de no capturar a un individuo que se sabe que está vivo fue del 21% durante 1 semana, 4,4% durante 2 semanas y 0,92% durante 3 semanas.

Evaluar los componentes de la aptitud

El dimorfismo sexual en la longitud total no ocurre en esta especie hasta el último estadio ninfal (V. Simoneau, datos no publicados), y dado que el tiempo de desarrollo no difiere entre los sexos (21), es poco probable que la selección durante las etapas inmaduras influya en la SSD del adulto. . Por lo tanto, hemos restringido nuestro estudio a la selección en adultos.

La supervivencia pre-reproductiva (supervivencia desde la eclosión hasta la temporada reproductiva de primavera) se registró como 0 (= no sobrevivió) o 1 (= sobrevivió) para todos los individuos que fueron marcados antes del invierno. Luego se calculó la longevidad reproductiva de los individuos sobrevivientes como:

donde DL es la fecha juliana en la que el individuo fue capturado por última vez y DF es la fecha juliana en la que se capturó por primera vez después de la diapausa.

Para medir la fecundidad diaria, se colocaron en los arroyos baldes con tapas con malla, agujeros en el fondo y una roca cuidadosamente limpia para la oviposición de modo que el agua cubriera parcialmente las rocas. Las hembras marcadas se recolectaron dos veces al año de cada arroyo (el 15 de junio y el 6 de julio de 1994, y el 24 de mayo y el 14 de junio de 1995) y se mantuvieron individualmente en cubos durante 2 días. La fecundidad diaria se estimó como el número medio de huevos puestos por día para cada individuo durante la prueba de 2 días.

El cálculo de la fecundidad fue sencillo en la primera generación (1993-1994), pero en la segunda generación (1994-1995) la fecundidad media difirió entre los ensayos en ambas corrientes. Para controlar estas diferencias, todas las fecundidad en la segunda generación se convirtieron en fecundidad relativa dentro de cada ensayo antes de que los ensayos se combinaran para el análisis.

Para evaluar el éxito de apareamiento de los machos, registramos el estado de apareamiento (apareamiento o soltero) de todos los machos vistos durante el muestreo de marca-recaptura. También se realizaron búsquedas en las áreas de estudio en busca de machos de apareamiento en uno (1994) o dos (1995) días adicionales cada semana. Luego se calculó la frecuencia de apareamiento para cada macho marcado como la proporción de veces que se encontró un macho apareándose durante la temporada de reproducción.

La aptitud adulta neta se calculó como supervivencia prerreproductiva × esperanza de vida reproductiva × éxito reproductivo diario (fecundidad para las hembras, frecuencia de apareamiento para los machos). Si bien se hicieron estimaciones de aptitud para cada episodio para todos los individuos presentes en cada episodio, la aptitud neta para adultos solo se estimó para aquellos individuos marcados en el otoño anterior. Aunque la aptitud adulta neta de las mujeres es una estimación de la fecundidad de por vida, la de los hombres solo puede interpretarse como un índice de aptitud a lo largo de la vida. El estado de apareamiento se evaluó solo una vez en un día de campo, proporcionando una estimación "instantánea", en lugar de un recuento real del número de apareamientos por día. Por lo tanto, multiplicar esto por la esperanza de vida reproductiva da un buen índice de éxito relativo de apareamiento, pero no se traduce en el número total de apareamientos a lo largo de la vida.

La fecundidad de las hembras se determinó solo para una proporción de las que sobrevivieron hasta la temporada reproductiva. Para evitar exagerar los efectos de la mortalidad pre-reproductiva, se calculó la aptitud adulta neta de las hembras utilizando la misma proporción de hembras que no sobrevivieron al invierno. Por ejemplo, en West Creek en 1994 se midió la fecundidad de 17 hembras de 57 supervivientes de las marcadas en 1993 (29,8%). Por lo tanto, seleccionamos al azar el 29,8% de las 152 hembras que no sobrevivieron al invierno (es decir, 45) para incluirlas en el análisis de la selección neta de adultos, lo que nos dio una muestra de 62. La selección aleatoria de hembras que no sobrevivieron y el análisis posterior se repitió 10 veces para cada muestra, y reportamos los coeficientes y probabilidades medias.

Análisis estadístico

La fecha de eclosión (en adelante DOE: fecha juliana en la que el individuo eclosiona desde el último estadio ninfal hasta el adulto) se correlaciona negativamente con la longitud total en esta especie (6 en este estudio, Tabla 2): las zancudas que eclosionan más tarde en el año son significativamente más pequeñas . Si el DOE influye directamente en cualquier componente del estado físico, su correlación con el tamaño corporal podría resultar en una correlación falsa entre el tamaño corporal y el estado físico. Por lo tanto, el DOE se incluyó como una variable independiente en los modelos de regresión para garantizar que cualquier selección del tamaño corporal que se detectara fuera independiente del DOE (ver 43 67). Para la selección de sexo y fecundidad, el DOE no está disponible para muchas de las personas incluidas en el conjunto de datos. Sin embargo, el análisis de regresión utilizando el subconjunto de datos para los que el DOE está disponible no reveló una influencia significativa del DOE en las relaciones entre el tamaño corporal y el éxito de apareamiento de los machos o la fecundidad de las hembras. En el análisis de la aptitud física neta de los adultos, el DOE estaba disponible para todos los individuos y se incluyó en los análisis.

Evaluamos las relaciones entre nuestras estimaciones de los componentes de la condición física y el tamaño corporal utilizando técnicas de regresión multivariante (39). Dentro de cada población y generación, las estimaciones de aptitud se convirtieron en aptitud relativa (wI′ = wI/ dónde wI′ Es aptitud relativa, wI es aptitud absoluta, y es la aptitud absoluta media), y cada rasgo (componente del tamaño corporal o fecha de eclosión) se estandarizó a una media de 0 y una desviación estándar de 1 <zI = (XIX)/sX dónde zI es el valor de rasgo estandarizado, XI es el valor del rasgo (no estandarizado), X es el valor medio del rasgo y sX es la desviación estándar de los valores de los rasgos>. Se realizó una regresión de la aptitud relativa en rasgos estandarizados en cuatro modelos diferentes para cada episodio de selección. El modelo lineal para la longitud total incluyó la longitud total estandarizada y el DOE, mientras que el modelo completo incluyó los términos lineales más todos los términos cuadráticos posibles: (longitud total estandarizada) 2, (DOE estandarizado) 2 y (longitud total estandarizada) × (DOE estandarizado ). Para identificar la posible selección en diferentes componentes del tamaño corporal, también se realizó una regresión de la aptitud relativa en las longitudes estandarizadas de los genitales externos ('longitud genital'), abdomen, tórax y mesofemora (media) y DOE (se estimaron los modelos lineales y completos) ). Los coeficientes de regresión lineal de los modelos lineales (denominados gradientes de selección lineal, el ‘independiente ’β ′ de 35) y los coeficientes cuadráticos de los modelos completos (denominados gradientes de selección cuadráticos, γ) estiman la selección de cada rasgo, independientemente de la selección de cualquier otro rasgo incluido en el modelo, para cada episodio de selección (39 15).

Se estimaron los gradientes de selección tanto lineales como cuadráticos para el DOE, pero el DOE se incluyó solo como una variable de control, y este artículo se ocupa de la selección específica del sexo en el tamaño del cuerpo. Por lo tanto, no se informan los gradientes de selección para DOE. Dentro de cada población, generación y sexo, estimamos cinco gradientes de selección lineales y 11 cuadráticos en el tamaño corporal para cada episodio de selección y para la selección neta de adultos. El número de estimaciones conduce a dos problemas: primero, después de la corrección de Bonferroni para múltiples pruebas, queda poco poder para detectar una selección significativa, segundo, el gran número de gradientes generados dificulta la interpretación (5 + 11 = 16 gradientes × 2 sexos × 2 poblaciones × 2 generaciones × 4 episodios de selección [incluido el adulto neto] equivale a 512 gradientes). Por lo tanto, simplificamos el análisis combinando los datos estandarizados de las diferentes poblaciones / generaciones antes de un análisis adicional. Esto nos permitió probar hipótesis sobre patrones generales de selección, en lugar de estimar gradientes de selección dentro de cada población / generación. En el Cuadro 3 solo se informan los gradientes de selección lineal para la selección neta de adultos, para cada sexo en cada población y generación.

Probamos las diferencias en los gradientes de selección entre muestras (heterogeneidad espacial y temporal en las funciones de aptitud), de modo que pudiéramos evitar combinar muestras con diferentes patrones de selección. Esto se logró haciendo una regresión de la aptitud relativa en la longitud total estandarizada y el DOE usando el conjunto de datos combinados, luego usando parciales F-pruebas (44, p. 281) para probar si la suma de las interacciones entre la longitud total estandarizada y la población o generación (incluidas como indicadores o variables "ficticias" según 44, p. 328) mejoró el modelo (ver 42). Los efectos principales de estas variables ficticias son siempre nulos porque los rasgos se estandarizaron dentro de cada población / generación.Si una interacción fue significativa (lo que indica heterogeneidad en la función de aptitud), los datos se dividieron según fuera apropiado y el análisis se repitió por separado para cada población / generación para todos los análisis posteriores en ese episodio de selección.

Los patrones de selección sobre la longitud total se estimaron utilizando el modelo lineal (con DOE estandarizado y longitud total) y el modelo completo (incluidos todos los términos lineales y cuadráticos) (39 46). Si se determina que uno de estos modelos es significativo (F-prueba), entonces debe haber existido una relación significativa entre la aptitud y al menos una de las variables independientes incluidas en el modelo (44, p. 289). Se utilizó la regresión escalonada (escalonada, selección hacia adelante y selección hacia atrás 44, p. 430) para reducir ese modelo a las variables significativas (ver 42). De manera similar, los modelos lineales y completos con longitudes estandarizadas de genital, abdomen, tórax y mesofemur medio, y DOE, se estimaron y redujeron mediante regresión escalonada cuando fueron significativos. Debido a que 49) encontraron que la selección sexual en la longitud total y genital masculina puede ser antagónica, también hicimos una regresión de la frecuencia relativa de apareamiento en la longitud genital estandarizada y la "longitud corporal pregenital" (longitud total - longitud genital). En todos los casos, las técnicas de selección por pasos, hacia adelante y hacia atrás produjeron los mismos modelos reducidos. Se utilizó el software estadístico SPSS 8.0 (65) para calcular todos los modelos de regresión.

Los residuos de estos modelos de regresión no se distribuyeron normalmente y, por lo tanto, confirmamos las significaciones utilizando el programa RT 1.02 (41) para aleatorizar la variable dependiente (aptitud) 9999 veces. Los resultados de la aleatorización fueron casi idénticos a los resultados de la regresión paramétrica (r 2 = 0,99966 para las probabilidades generadas por los dos métodos).


Resultados

Gradientes de selección tradicionales

Antes de tener en cuenta la heterogeneidad ambiental, detectamos evidencia limitada de selección en el color del plumaje del herrerillo común. Solo encontramos dos gradientes de selección tradicionales significativos (lineal, cuadrático o correlacional) en los parches de color del plumaje del herrerillo común (Tabla 1). Las diferencias en la paternidad dentro de la pareja impusieron una selección significativamente disruptiva en el color del plumaje de la corona de los machos adultos. Encontramos un patrón similar que involucra el plumaje del pecho en hembras de un año. En las hembras adultas, encontramos una selección lineal positiva marginalmente no significativa en el color del plumaje de la copa.

Grupo
Rasgo Lineal ± SE corona Ala Pecho
Hombres adultos (estimación de paternidad, norte = 288)
corona −0.0163 ± 0.0118 0.0192 ± 0.0176
Ala −0.0148 ± 0.0119 −0.0177 ± 0.0132 0.0084 ± 0.0178
Pecho −0.0087 ± 0.0118 −0.0078 ± 0.0124 −0.0125 ± 0.0129 −0.0024 ± 0.0150
Machos de un año (estimación de paternidad, norte = 293)
corona 0.0089 ± 0.0132 −0.0188 ± 0.0202
Ala 0.0082 ± 0.0132 0.0036 ± 0.0139 0.0186 ± 0.0200
Pecho 0.0084 ± 0.0130 0.0026 ± 0.0145 −0.0030 ± 0.0154 −0.0030 ± 0.0204
Machos adultos (paternidad dentro de la pareja, norte = 115)
corona −0.0722 ± 0.0392 0.1290 ± 0.0578*
Ala −0.0132 ± 0.0393 −0.0507 ± 0.0488 0.0638 ± 0.0614
Pecho −0.0545 ± 0.0390 −0.0176 ± 0.0492 −0.0472 ± 0.0438 0.0074 ± 0.616
Machos de un año (paternidad dentro de la pareja, norte = 106)
corona 0.0622 ± 0.0505 0.0934 ± 0.0868
Ala 0.0352 ± 0.0508 0.0051 ± 0.0610 0.105 ± 0.0728
Pecho −0.0134 ± 0.0499 −0.0285 ± 0.0587 −0.0078 ± 0.0685 0.0098 ± 0.0758
Hembras adultas (norte = 313)
corona 0.0214 ± 0.0109^ −0.0218 ± 0.0166
Ala −0.0067 ± 0.0113 −0.0015 ± 0.0133 0.0040 ± 0.0160
Pecho −0.0031 ± 0.0106 −0.0155 ± 0.0115 0.0196 ± 0.0114 0.0038 ± 0.0150
Hembras de un año (norte = 283)
corona 0.0046 ± 0.0123 −0.0226 ± 0.0186
Ala 0.0023 ± 0.0122 0.0026 ± 0.0136 −0.0009 ± 0.0182
Pecho −0.0166 ± 0.0115 −0.0085 ± 0.0115 −0.0109 ± 0.0136 0.0490 ± 0.0162**

Degradados basados ​​en rotación canónica

La rotación canónica de las matrices de selección no lineal no reveló una selección estadísticamente significativa pasada por alto por los análisis tradicionales. Al igual que con los gradientes tradicionales, encontramos una selección cuadrática positiva significativa en forma de diferencias en la paternidad dentro de la pareja entre los varones adultos (Tabla 2). Esta selección disruptiva estaba en el eje primario con fuertes cargas positivas por el color de la corona, cargas negativas moderadas por el color del ala e influencia insignificante del color del pecho (Tabla 2). También observamos una selección cuadrática positiva en hembras de un año en un eje canónico dominante fuertemente influenciado por el color del pecho y solo débilmente influenciado por los otros colores (Tabla 2). Esto fue consistente con la selección cuadrática del color del pecho de la hembra de un año observada en el análisis tradicional (Tabla 1). Tres marginalmente no significativos (0.055 & gt PAG & gt 0.050) los gradientes de selección aparecieron después de la rotación canónica. Dos de estos fueron gradientes lineales negativos asociados con el tercer eje canónico de los análisis de machos adultos, y en ambos casos, estos ejes se correlacionaron positivamente con los tres colores, aunque más fuertemente con el pecho y menos con el color de la corona (Tabla 2). El tercer gradiente marginalmente no significativo fue positivo en hembras adultas en el eje primario con fuertes cargas positivas del color del ala y el pecho y una modesta carga negativa del color de la corona (Tabla 3). Por lo tanto, parece que las hembras adultas con color intermedio de alas y pecho probablemente pondrían la menor cantidad de huevos. Esta selección disruptiva no había sido evidente en los análisis tradicionales (Tabla 1).

Vector propio corona Ala Pecho θ λ
Hombres adultos (estimación de paternidad)
metro 1 0.792 −0.609 0.042 −0.0042 ± 0.0124 0.0324 ± 0.0200
metro 2 0.438 0.518 −0.735 −0.0084 ± 0.0120 0.0112 ± 0.0168
metro 3 0.426 0.600 0.677 −0.0218 ± 0.0111^ −0.0182 ± 0.0152
Machos de un año (estimación de paternidad)
metro 1 0.084 0.989 −0.122 0.0078 ± 0.0132 0.0194 ± 0.0208
metro 2 0.179 0.105 0.978 0.0107 ± 0.0129 −0.0028 ± 0.0202
metro 3 0.980 −0.104 −0.168 0.0065 ± 0.0134 −0.0196 ± 0.0210
Hombres adultos (paternidad dentro de la pareja)
metro 1 0.865 −0.498 0.056 −0.0590 ± 0.0416 0.1572 ± 0.0754*
metro 2 0.428 0.677 −0.598 −0.0073 ± 0.0399 0.0734 ± 0.0672
metro 3 0.260 0.541 0.799 −0.0695 ± 0.0357^ −0.0304 ± 0.0500
Machos de un año (paternidad dentro de la pareja)
metro 1 0.586 0.778 −0.225 0.0669 ± 0.0468 0.1110 ± 0.0864
metro 2 −0.756 0.625 0.192 −0.0276 ± 0.0540 0.0964 ± 0.0920
metro 3 0.290 0.058 0.955 0.0072 ± 0.0502 0.0008 ± 0.0818
Hembras adultas
metro 1 −0.252 0.642 0.723 −0.0112 ± 0.0101 0.0266 ± 0.0136^
metro 2 0.508 0.724 −0.466 0.0075 ± 0.0106 −0.0098 ± 0.0142
metro 3 0.824 −0.250 0.509 0.0177 ± 0.0120 −0.0310 ± 0.0194
Hembras de un año
metro 1 −0.118 −0.180 0.977 −0.0172 ± 0.0117 0.0520 ± 0.0172**
metro 2 0.079 0.979 0.190 −0.0005 ± 0.0118 −0.0110 ± 0.0162
metro 3 0.990 −0.099 0.101 0.0027 ± 0.0126 −0.0238 ± 0.0192
Variables Beta ± SE df F PAG
Edad materna −0.4326 ± 0.0617 1, 353 49.2 & lt 0,0001
Número de robles 0.0303 ± 0.0050 1, 353 36.8 & lt 0,0001
Polígono Thiessen 3 × 10 −5 ± 7 × 10 −6 1, 353 17.2 & lt 0,0001
Altitud 0.0041 ± 0.0013 1, 353 9.2 0.003
Distancia al borde 0.0008 ± 0.0003 1, 353 6.6 0.01

Efectos ambientales sobre la fecundidad

A continuación, utilizando un conjunto de datos a largo plazo, identificamos variables ambientales a nivel de territorio que predecían la fecundidad para determinar si estas variables influían en los patrones de selección del plumaje. Los herrerillos ponen nidadas significativamente más grandes con más robles dentro de los 50 m del nido y cuando anidan en densidades más bajas (Tabla 3). Observamos tendencias significativas, pero mucho más débiles, de herrerillos azules para poner nidadas más grandes a mayor altura y más lejos del borde del bosque (Tabla 3). Por lo tanto, decidimos determinar si los gradientes de selección estaban influenciados por la densidad de reproducción de tit o la densidad de roble.

Interacciones con variables ambientales

Observamos varios casos de variación espacial en los patrones de selección en función de la variabilidad ambiental. Sin embargo, el número de robles en las proximidades del nido tuvo poco efecto en los gradientes de selección en relación con el tamaño del polígono de Thiessen, nuestra función inversa de la densidad de anidación de tit (Tablas 4 y 5).

Variable ambiental Forma de selección df F PAG
Grupo
Numero de robles
Hombres adultos (estimación de paternidad) Lineal 7, 279 0.47 0.85
Cuadrático 10, 276 1.71 0.08
Correlacional 10, 276 1.56 0.12
Machos de un año (estimación de paternidad) Lineal 7, 285 0.19 0.99
Cuadrático 10, 282 0.77 0.66
Correlacional 10, 282 0.36 0.96
Hombres adultos (paternidad dentro de la pareja) Lineal 7, 107 0.60 0.76
Cuadrático 10, 104 1.67 0.10
Correlacional 10, 104 0.13 0.99
Machos de un año (pater dentro de la pareja). Lineal 7, 98 2.02 0.06
Cuadrático 10, 95 1.06 0.40
Correlacional 10, 95 2.97 0.003
Hembras adultas Lineal 7, 304 0.46 0.86
Cuadrático 10, 301 0.22 0.99
Correlacional 10, 301 1.31 0.23
Hembras de un año Lineal 7, 275 1.60 0.14
Cuadrático 10, 272 1.05 0.40
Correlacional 10, 272 0.25 0.99
Polígono Thiessen
Hombres adultos (estimación de paternidad) Lineal 7, 279 0.31 0.95
Cuadrático 10, 276 0.31 0.98
Correlacional 10, 276 0.80 0.63
Machos de un año (estimación de paternidad) Lineal 7, 285 0.98 0.45
Cuadrático 10, 282 3.38 0.0003
Correlacional 10, 282 1.72 0.08
Hombres adultos (paternidad dentro de la pareja) Lineal 7, 107 1.02 0.42
Cuadrático 10, 104 0.24 0.99
Correlacional 10, 104 0.71 0.71
Machos de un año (pater dentro de la pareja). Lineal 7, 98 0.16 0.99
Cuadrático 10, 95 0.57 0.84
Correlacional 10, 95 2.75 0.005
Hembras adultas Lineal 7, 304 2.39 0.02
Cuadrático 10, 301 1.19 0.30
Correlacional 10, 301 4.88 & lt 0,0001
Hembras de un año Lineal 7, 275 1.15 0.33
Cuadrático 10, 272 1.16 0.32
Correlacional 10, 272 0.20 0.99
Variable ambiental Forma de selección df F PAG
Grupo
Numero de robles
Hombres adultos (estimación de paternidad) Lineal 7, 279 0.47 0.85
Cuadrático 13, 273 051 0.92
Machos de un año (estimación de paternidad) Lineal 7, 285 0.19 0.99
Cuadrático 13, 279 0.64 0.82
Hombres adultos (paternidad dentro de la pareja) Lineal 7, 107 0.60 0.76
Cuadrático 13, 101 1.32 0.21
Machos de un año (pater dentro de la pareja). Lineal 7, 98 2.02 0.06
Cuadrático 13, 92 3.15 0.0006
Hembras adultas Lineal 7, 304 0.46 0.86
Cuadrático 13, 298 0.71 0.75
Hembras de un año Lineal 7, 275 1.60 0.14
Cuadrático 13, 269 1.37 0.17
Polígono Thiessen
Hombres adultos (estimación de paternidad) Lineal 7, 279 0.31 0.95
Cuadrático 13, 273 0.51 0.92
Machos de un año (estimación de paternidad) Lineal 7, 285 0.98 0.44
Cuadrático 13, 279 2.42 0.004
Hombres adultos (paternidad dentro de la pareja) Lineal 7, 107 1.02 0.42
Cuadrático 13, 101 0.58 0.86
Machos de un año (pater dentro de la pareja). Lineal 7, 98 0.16 0.99
Cuadrático 13, 92 2.67 0.003
Hembras adultas Lineal 7, 304 2.39 0.02
Cuadrático 13, 298 2.27 0.007
Hembras de un año Lineal 7, 275 1.15 0.33
Cuadrático 13, 269 0.99 0.46

La densidad de los robles pareció haber influido solo en la selección de los machos de un año, y solo a través de la paternidad dentro de la pareja (Tablas 4 y 5). El gradiente de selección correlacional en el color de la copa y el ala fue uno de los dos aparentemente influenciados por los robles (Cuadro 6). La aptitud más alta apareció en densidades altas de roble y valores intermedios de color copa × ala. La aptitud fue más baja con una densidad de roble baja si las puntuaciones de la copa y el ala eran bajas (Fig. 1a). Para este mismo subconjunto de machos, el número de roble también interactuó con el gradiente de selección cuadrático en el primer eje de los análisis canónicos (Tabla 7). En este análisis, el plumaje de las alas y la copa, como aparecieron cargas fuertemente positivas en el primer eje canónico (Tabla 2), han experimentado una selección disruptiva, pero solo donde los robles eran raros o estaban ausentes. La selección pareció posiblemente negativa a altas densidades de roble (Fig. 1b). Se espera una forma similar de estos dos gráficos, dado que son representaciones correlacionadas de las mismas manchas de color en las mismas aves.

Rasgo de plumaje
Machos de un año (paternidad dentro de la pareja)
Robles correlacionales * ± SE Polígono correlacional * ± SE
Corona * ala −0.0387 ± 0.0138** 0.0239 ± 0.1219
Corona * cofre 0.0120 ± 0.0117 −0.3365 ± 0.1248**
Ala * pecho 0.0136 ± 0.0119 0.0404 ± 0.1305
Machos de un año (estimación de paternidad)
Polígono cuadrático * ± SE
corona −0.0944 ± 0.0392*
Ala −0.0774 ± 0.0412
Pecho 0.0110 ± 0.0458
Hembras adultas
Polígono lineal * ± SE
corona 0.0151 ± 0.0240
Ala −0.0175 ± 0.0250
Pecho −0.0514 ± 0.0221*
Polígono correlacional * ± SE
Corona * ala −0.0795 ± 0.0222***
Corona * cofre 0.0364 ± 0.0246
Ala * pecho −0.0241 ± 0.0207

Relaciones entre el número de robles dentro de los 50 m del nido y los gradientes de paternidad dentro de la pareja de machos de un año de (a) selección correlacional en el color de la copa y el ala y (b) selección cuadrática en la variable compuesta metro1 que tiene fuertes cargas positivas por color de copa y ala.

Rasgo de plumaje
Machos de un año (paternidad dentro de la pareja)
Robles cuadráticos * ± SE Polígono cuadrático * ± SE
metro 1 −0.0470 ± 0.0170** −0.2170 ± 0.1802
metro 2 0.0156 ± 0.0176 0.1074 ± 0.1478
metro 3 0.0072 ± 0.0162 −0.5806 ± 0.2244*
Machos de un año (estimación de paternidad)
Polígono cuadrático * ± SE
metro 1 −0.0882 ± 0.0450^
metro 2 −0.0100 ± 0.0470
metro 3 −0.0748 ± 0.0408
Hembras adultas
Polígono lineal * ± SE Polígono cuadrático * ± SE
metro 1 −0.0519 ± 0.0221* −0.0232 ± 0.0258
metro 2 0.0201 ± 0.0228 −0.0664 ± 0.0302*
metro 3 −0.0091 ± 0.0260 0.0476 ± 0.0384

La selección de machos de un año también varió en función de la densidad de anidación (Tablas 4-7). La selección que favorece el color de la copa intermedio apareció presente solo en una densidad de población baja (Fig. 2a). Esta interacción no fue evidente cuando se examinó la selección resultante únicamente de la paternidad dentro de la pareja. Sin embargo, la selección correlacional del color de la corona y el pecho en función de la paternidad dentro de la pareja se relacionó con el tamaño del polígono (Tabla 6). A bajas densidades de anidación, los machos con puntuaciones bajas en el color de la copa y el pecho tenían una alta aptitud y los machos con un color más saturado tenían una baja aptitud, pero a altas densidades de anidación, esta selección negativa parecía mucho más débil (Fig. 2b).

Relaciones entre el tamaño del polígono de Thiessen (inverso de la densidad de anidación) y los gradientes de machos de un año de (a) selección cuadrática en el color de la corona (todos los machos de un año), (b) selección correlacional en el color de la corona y el pecho (basado únicamente en la paternidad dentro de la pareja), (c) selección cuadrática en variable compuesta metro1 que tiene cargas fuertes (positivas) solo por el color de las alas (todos los machos de un año), y (d) selección cuadrática en la variable compuesta metro3 que tiene cargas positivas fuertes del color del pecho y cargas positivas moderadas del color de la corona (basado únicamente en la paternidad dentro de la pareja).

También observamos los efectos del tamaño del polígono en los gradientes de selección de machos de un año que actúan sobre los rasgos compuestos derivados de la rotación canónica (Tabla 5). Para el conjunto completo de machos de un año, el tamaño del polígono interactuó con el gradiente de selección cuadrático en el primer eje canónico (Tabla 7), que estaba fuertemente cargado positivamente por el color del ala y solo débilmente influenciado por el color de la corona o el pecho (Tabla 2). Por lo tanto, parece que el color de las alas se vio afectado por una selección disruptiva, pero solo con una alta densidad de población (Fig. 2c). Con una densidad de población baja, es posible que se hayan favorecido los colores de las alas intermedias o más saturadas (Fig. 2c). Al considerar la selección solo de la paternidad dentro del par, el tamaño del polígono interactuó con el gradiente cuadrático en el tercer eje canónico (Tabla 7), que fue fuertemente cargado positivamente por el color del pecho, correlacionado moderadamente positivamente con el color de la corona e influenciado insignificantemente por el color del ala (Tabla 2). Parece que la selección favoreció los valores intermedios a lo largo del eje canónico, pero principalmente en densidades de población bajas y altas y no en densidades intermedias (Fig. 2d).

Varios análisis indicaron que los gradientes de selección de fecundidad en el plumaje de hembras adultas variaron con la densidad de anidación (Tablas 4 y 5). Encontramos una interacción significativa entre el tamaño del polígono y el gradiente de selección lineal en el color del pecho (Tabla 3a), con el color del pecho seleccionado de forma débilmente negativa en densidades más bajas y patrones más variables en densidades altas (Fig. 3a). También encontramos una interacción significativa entre el tamaño del polígono y la selección correlacionada en el color de la corona y el ala (Tabla 6). En densidades de población bajas, la aptitud disminuyó con puntuaciones más altas en el color de la corona y las alas, pero en densidades altas, la selección pareció perturbadora (Fig. 3b). Además, se mejoraron los modelos lineales y cuadráticos de los rasgos compuestos de los análisis canónicos con la inclusión de interacciones con el tamaño del polígono. El tamaño del polígono interactuó con el gradiente lineal en el eje primario fuertemente correlacionado positivamente con el color del pecho y del ala y moderadamente negativamente correlacionado con el color de la corona (Tabla 2). Esta variable compuesta experimentó una selección direccional negativa, pero solo en áreas de baja densidad de población (Fig. 3c). La selección cuadrática en el segundo eje, fuertemente correlacionada positivamente con el color del ala y la corona y correlacionada negativamente con el color del pecho (Tabla 2), también varió con el tamaño del polígono. Aquí, la selección fue heterogénea excepto por un valle profundo en valores medio-bajos de la variable compuesta y alta densidad de población (Fig. 3d).

Relaciones entre el tamaño del polígono Thiessen (inverso de la densidad de anidación) y los gradientes de hembras adultas de (a) selección lineal en el color del pecho, (b) selección correlacional en el color de la corona y el ala, (c) selección lineal en la variable compuesta metro1 que tiene fuertes cargas positivas por el color del ala y el pecho y una carga negativa moderada por el color de la corona, y (d) selección cuadrática en la variable compuesta metro2 que tiene fuertes cargas positivas del color de la corona y las alas y fuertes cargas negativas del color del pecho.


Discusión

En Pingüinos de Magallanes estudiados en Punta Tombo, Argentina, encontramos que varios rasgos morfológicos prominentes, incluido el tamaño corporal general, son hereditarios. Detectamos selección natural en la mayoría de los rasgos, pero la selección fue indetectable en la mayor parte de los 28 años que examinamos, y cuando la selección fue significativa, varió temporalmente tanto en dirección como en magnitud. Descubrimos que la selección parecía actuar principalmente sobre el tamaño corporal general, aunque también encontramos selección en algunos rasgos individuales, específicamente la longitud y profundidad del pico en los machos y la longitud del pico y las patas en las hembras. La selección que detectamos varió según el sexo y fue más variable para las mujeres. Para los machos, la selección actuó más comúnmente en el tamaño del pico y el cuerpo, y fue predominantemente direccional hacia los picos más largos y profundos y el tamaño general del cuerpo más grande. La selección de los rasgos femeninos también se basó principalmente en el tamaño del cuerpo y el pico, pero la dirección varió anualmente y no se detectó en los mismos años que en los machos (solo 3 de 28 años mostraron una selección detectable en ambos sexos).

La imprevisibilidad en la dirección de la selección (particularmente en las hembras) y la ausencia de selección detectable en muchos años son patrones similares a los encontrados en un estudio a largo plazo de selección de rasgos morfométricos en los pinzones de Darwin (Grant y Grant 2002), donde la selección varió. en dirección de año en año y estuvo ausente en algunos años. Los grandes coeficientes de selección en años con selección detectable, y su relación con la variación individual en la producción de polluelos, implica que estos rasgos, especialmente el tamaño corporal general, influyen directamente en la aptitud (si el éxito anual de emplumar está altamente correlacionado con el éxito reproductivo de por vida). Sin embargo, esto es cierto solo en algunos años, dado que la selección de rasgos en ambos sexos fue indetectable en la mayoría de los años que examinamos. Además, la influencia del tamaño (menor o mayor) en la aptitud es variable para las mujeres. Nuestros resultados muestran que puede haber una conexión entre la selección en los machos y la disponibilidad de presas que ayudaría a explicar la influencia directa de estos rasgos en la aptitud, aunque es probable que uno o varios otros factores no medidos actúen para conservar la variación en años sin una selección detectable, lo que podría mantener el tamaño medio de los rasgos se mantiene estable en el tiempo.

Todos los rasgos morfológicos que medimos, incluido el tamaño corporal, son significativamente hereditarios en esta población. La variabilidad observada en estos rasgos y las estimaciones correspondientes de heredabilidad y correlación genética indican que hay una amplia variación fenotípica y genética disponible para que la selección natural facilite una respuesta adaptativa en la morfología. Bouzat y col. (2009) mostraron una alta diversidad genética en pingüinos de Magallanes utilizando marcadores de ADN nuclear y mitocondrial. Aunque estimamos heredabilidades significativas para el tamaño del pico, la longitud del pie y el tamaño del cuerpo con la regresión entre padres e hijos, el poder explicativo de estas relaciones fue bajo (bajo r 2 ver Apéndice), lo que sugiere una alta variación fenotípica, probablemente como resultado de la alta variabilidad en la dirección y magnitud de la selección entre años. Tanto la regresión de padres a hijos como los análisis de modelos animales indicaron estimaciones de heredabilidad significativas para todos los rasgos (excepto la longitud de la aleta en las regresiones de padres a hijos). Sin embargo, a diferencia de los modelos animales, las regresiones entre padres e hijos con toda la descendencia no están condicionadas por el efecto fijo del sexo (y generalmente consideran el dimorfismo sexual realizando análisis separados para cada sexo), lo que conduce a cierta disparidad en las estimaciones entre estos métodos. Es probable que la longitud de la aleta sea significativamente hereditaria, dado que el modelo animal es más completo en su inclusión de parientes.

Cuando los machos y las hembras se analizaron por separado, los rasgos no fueron significativamente heredables en las hijas. Aunque las estimaciones puntuales eran a menudo tan grandes para las hijas como para los hijos, la varianza fenotípica también era alta, lo que conducía a estimaciones de heredabilidad no significativas. La gran variación en el tamaño de las hembras podría deberse a la amplia variación fenotípica de las fuerzas de selección opuestas que detectamos en las hembras (selección direccional para rasgos tanto más pequeños como más grandes, según el año) pero no en los machos. La falta de selección observada en las hembras y la ausencia de evidencia de selección en la longitud de la aleta independientemente de la selección en el tamaño corporal pueden ayudar a mantener la variación fenotípica. Forero et al. (2001) especularon que las hembras de pingüinos de Magallanes tenían una alta heredabilidad para la longitud de la aleta o que las hembras con aletas más grandes tenían una mayor supervivencia, lo que conducía a un dimorfismo sexual bajo para la longitud de la aleta. Dado que la heredabilidad de la longitud de la aleta es menor en las hembras que en los machos y la estimación es muy pequeña (dependiendo de la prueba utilizada), el bajo dimorfismo sexual de la longitud de la aleta parece ser el resultado de una mayor supervivencia de las hembras con aletas más largas.Mostramos que es más probable que los polluelos con aletas más largas regresen a la colonia, una observación que también apoya la posibilidad de que la supervivencia diferencial sea la explicación más probable.

La supervivencia diferencial de las crías con aletas y patas más largas podría llevar a estimaciones de heredabilidad infladas. Es poco probable que la descendencia que no regresó sobreviviera hasta la madurez, dado que solo el 0.3% de los individuos anillados en Punta Tombo de 1982 a 2005 fueron avistados en otro lugar (Boersma 2008). La inflación de las estimaciones de heredabilidad podría significar que una variación fenotípica aún menor se explica por la variación genética, lo que parece probable dada la variabilidad en la selección de un año a otro, lo que probablemente refleja la variabilidad en el medio ambiente. Observamos que nuestro proxy de aptitud para los análisis de selección fue el número de polluelos en un año determinado, no el número de polluelos que regresaron. Por lo tanto, la aptitud reproductiva total de un progenitor podría ser menor si el progenitor tuvo varios polluelos pero ninguno regresó (según la diferente supervivencia de los polluelos), diluyendo así los impactos evolutivos. Al mismo tiempo, todavía existe una selección de rasgos en los padres que ocurren durante la temporada de reproducción, antes de que los polluelos emplumen, selección que también tiene consecuencias evolutivas.

Otras dos consideraciones importantes pueden influir en la fiabilidad de las estimaciones de heredabilidad. El primero de ellos es la selección (supervivencia diferencial de distintos fenotipos) que ocurre antes de que la descendencia alcance el tamaño adulto (Grant 1983). En el papamoscas común (Ficedula hypoleuca), cuando se utilizaron los tamaños de las crías adultas en comparación con los tamaños de las crías, las estimaciones de heredabilidad fueron menores porque la selección estabilizadora se produjo después de que las crías emplumaron y antes de que alcanzaran el tamaño adulto (Potti y Merino 1994). Encontramos evidencia de selección antes de la madurez en los pingüinos de Magallanes, en que las crías que emplumaron pero no regresaron a la colonia tenían aletas y patas significativamente más cortas al emplumar que sus hermanos que regresaron a la colonia como adultos. Por lo tanto, las estimaciones de heredabilidad para los tamaños de aletas y pies probablemente estén infladas y deben considerarse límites superiores. La segunda consideración del sesgo de heredabilidad es la covarianza ambiental, o entornos comunes entre padres e hijos que pueden aumentar la semejanza (Merilä y Sheldon 2001), y muchos estudios sobre heredabilidad aviar han discutido posibles sesgos de correlaciones ambientales entre padres e hijos (ver Barbraud 2000, Keller y col. 2001). Algunos estudios han abordado esto a través de experimentos de crianza cruzada, permitiendo que otros padres críen descendencia para eliminar entornos compartidos (Wiggins 1989, Gustafsson y Merilä 1994). Sin embargo, los estudios sobre la heredabilidad del tamaño corporal en especies de aves utilizando experimentos con padres adoptivos muestran poca o ninguna evidencia de inflación de las estimaciones debido a la correlación ambiental, lo que sugiere una covarianza ambiental débil (Dhondt 1982, Wiggins 1989, Gustafsson y Merilä 1994), por lo que los ambientes compartidos puede que no haya sesgado apreciablemente nuestras estimaciones de heredabilidad.

La selección que detectamos fue más consistente a lo largo de los años para los hombres que para las mujeres, aunque todavía indetectable en la mayoría de los años para ambos sexos. La selección tendió a favorecer a los machos más grandes y a los picos de los machos más largos y profundos, particularmente en años de alta hambruna de polluelos. Al observar la proporción de polluelos que murieron de hambre en un año (un indicador de la disponibilidad de presas), hubo algunas consistencias en los años en los que la selección fue significativa para los machos, lo que implica que un tamaño más grande y picos más grandes pueden contribuir al éxito de búsqueda y reproducción. de los machos. Además, no detectamos selección en ningún rasgo para los machos en la mayoría de los años (21 de 28 años) con la menor hambruna de pollitos, lo que sugiere que cuando hay suficiente comida disponible, el tamaño puede no ser un determinante importante del éxito reproductivo. La depredación, los eventos climáticos, la densidad de anidación, las peleas y la distancia de alimentación (ver Stokes y Boersma 1998, 2000, Boersma y Rebstock 2009, 2014) también pueden afectar el éxito reproductivo en los pingüinos de Magallanes. Variables ambientales similares influyen en la selección de rasgos en otras aves, incluido el clima (Brown y Brown 1998), el tamaño del alimento (Boag y Grant 1981) y la interferencia humana (Brown y Brown 2013). Además, existe cierta competencia intrasexual en los pingüinos de Magallanes machos (Renison et al.2002) que puede imponer la selección en la morfología, similar a los resultados en los petreles de las nieves (Pagodroma nivea Barbraud 2000). Cualquier selección débil que fluctúe temporalmente, o la selección debida a la supervivencia (no al éxito reproductivo) que actúe en direcciones opuestas, podría ayudar a mantener la variación genética y fenotípica en la morfología. Aunque el tamaño promedio del cuerpo y el pico de los machos podría aumentar con el tiempo (debido a casos ocasionales de una fuerte selección direccional que favorece los tamaños más grandes), la variación entre los años en la selección, la selección débil e indetectable y la falta de selección en la mayoría de los años probablemente fomenta la estabilidad de la morfología a través de tiempo.

Encontramos menos consistencia en la dirección de la selección en los rasgos en las hembras que en los machos y una relación más débil con la inanición de los polluelos, aunque, nuevamente, la selección rara vez se detectó. Esto sugiere que es probable que estén interactuando múltiples factores ambientales en un año dado y que las fuerzas selectivas ejercidas sobre los rasgos varían anualmente, potencialmente incluso cambiando de dirección. Esto contrasta con Red Knots (Calidris canutus canutus), en el que el cambio climático ha llevado a una presión selectiva constante y fuerte contra los billetes pequeños (ver van Gils et al.2016). Además, la selección significativa de hembras en los 2 años con mayor hambre de polluelos (1987 y 2000) fue en direcciones opuestas (para el tamaño del pico o el tamaño del cuerpo), y también hubo selección en años de hambre media y baja. La masa o condición corporal (Sæther et al. 1997), la experiencia de búsqueda de alimento (Limmer y Becker 2009) y las cualidades de comportamiento como la elección de la presa (Golet et al. 2000) y la distancia de búsqueda de alimento (Boersma y Rebstock 2009) pueden influir en la búsqueda de alimento de las hembras. éxito más que su morfología. Las hembras se saltan las temporadas de reproducción en años de escasos recursos con más frecuencia que los machos (Boersma y Rebstock 2010), por lo que potencialmente solo se reproducen las hembras en buena condición corporal. Otras cualidades de los padres, como la condición corporal (en oposición al tamaño corporal), así como la experiencia de reproducción y la edad, pueden afectar el éxito reproductivo de las aves marinas (Wooller et al. 1990, Chastel et al. 1995). En los pingüinos de Magallanes, una mayor calidad de los padres (que incluía múltiples factores) condujo a huevos más grandes y, por lo tanto, polluelos más grandes y un mayor éxito de emplumar (Reid y Boersma 1990). Por lo tanto, la calidad de los padres relacionada con la experiencia, la fecha de puesta y otros factores pueden estar más estrechamente vinculados que el tamaño corporal u otros rasgos morfológicos al éxito reproductivo general en los pingüinos de Magallanes.

Durante años con selección, la selección rara vez fue similar para machos y hembras en un año dado, ya sea en magnitud o dirección (pero ver 2000), lo que puede contribuir al dimorfismo sexual en esta especie. Para ambos sexos, la mayoría de los años (21 de 28 tanto para hombres como para mujeres) no tuvieron una selección detectable, pero hubo más evidencia de selección en los picos que en las aletas o los pies, y los picos son más dimórficos sexualmente (ver Boersma et al. 2013). Hubo una selección más direccional hacia tamaños de cuerpo y pico más pequeños en las hembras (3 de 28 años) que en los machos (0 de 28 años), particularmente en la década de 1980. Sin embargo, es probable que el dimorfismo sexual también sea impulsado por la selección de pareja femenina y la selección sexual. Punta Tombo tiene una proporción de sexos de reproducción de adultos sesgada, alrededor de 1.5: 1 (macho: hembra Boersma et al. 2013), y los machos más grandes ganan peleas por nidos de mayor calidad (Renison et al. 2002). No obstante, es probable que al menos una parte del dimorfismo sexual en esta especie se deba a la variación en la selección natural entre los sexos.

Los coeficientes de selección que estimamos para los rasgos morfológicos en los pingüinos de Magallanes son similares a los valores estimados para otras poblaciones naturales y especies de aves, y los patrones que observamos en la selección son similares a los observados en otro estudio de selección a largo plazo sobre la morfología de las aves. En un estudio de 30 años de pinzones de Darwin, una especie, el pinzón de tierra mediano, mostró cambios en la dirección de selección en el pico y el tamaño del cuerpo entre años, y en muchos años no se detectó ninguna selección (Grant y Grant 2002). Además, en una segunda especie, el pinzón común de cactus (G. scandens), Grant y Grant (2002) vieron una selección significativa solo hacia billetes más grandes, con una selección más débil y no significativa hacia billetes más pequeños, similar a nuestros resultados para los hombres. Los coeficientes de selección significativos que encontramos (0.105-0.566) son similares en magnitud a los valores significativos para las 2 poblaciones de pinzones de Darwin (rara vez & gt0.5 y rara vez significativos cuando & lt0.1), y la alta variabilidad en los coeficientes de selección que observamos entre años fue similar a lo observado por Grant y Grant (2002). Además, los coeficientes de selección de rasgos en otras poblaciones naturales son similares a los que encontramos tanto para machos como para hembras (Kingsolver et al. 2001). Las heredabilidades que estimamos para los rasgos en los pingüinos de Magallanes están dentro de los rangos de las estimaciones de heredabilidad documentadas para los rasgos morfológicos en otras especies de aves (ver Merilä y Sheldon [2001] y Jensen et al. [2003], en los cuales los valores variaron de 0.4 a 0.6 y de 0,28 a 1,06, respectivamente). Evidentemente, estos patrones de variación genética y fenotípica y de selección natural en la morfología de los pingüinos son comunes entre las aves, lo que sugiere que las aves con historias de vida y hábitats similares experimentan una gama muy similar de condiciones ambientales a las que deben adaptarse con éxito si son persistir.

Conclusión

A partir de un estudio de 28 años de pingüinos de Magallanes en Punta Tombo, Argentina, proporcionamos evidencia de la selección natural en el tamaño del cuerpo, la longitud y profundidad del pico y la longitud del pie, y demostramos que estos rasgos son hereditarios. Sin embargo, también encontramos que la selección es indetectable en la mayoría de los años, la selección varía entre los sexos y la selección varía temporalmente tanto en dirección como en magnitud. En los pocos años en que detectamos la selección, favoreció consistentemente un tamaño corporal y un pico más grandes en los machos y fue más variable en las hembras. Parece poco probable que la morfología de esta especie cambie apreciablemente como resultado de la variabilidad temporal en la relación entre el tamaño y el éxito reproductivo. La variabilidad en la selección entre los sexos, entre los años y durante 3 décadas se combina con una variación genética y fenotípica apreciable en la morfología en esta población (consistente con Bouzat et al.2009), y es probable que la dinámica de la selección natural en estos pingüinos ser catalizadores primarios para mantener esta variación frente a la variabilidad ambiental. La variabilidad temporal en la selección también limita el cambio morfológico constante a lo largo del tiempo, un patrón que sería evidente solo en un estudio a largo plazo. Al igual que los de Grant y Grant (2002), nuestros resultados destacan la importancia de los estudios a largo plazo para identificar patrones y tendencias en el medio ambiente que pueden influir en los patrones de respuestas fenotípicas y genéticas en la morfología y el ciclo de vida a través de la selección natural.


¿Por qué estimar los coeficientes de selección lineales y completos (lineales, cuadráticos y correlacionales) por separado? - biología

La multicolinealidad es un problema común al estimar modelos lineales o lineales generalizados, incluida la regresión logística y la regresión de Cox. Ocurre cuando hay altas correlaciones entre las variables predictoras, lo que conduce a estimaciones poco fiables e inestables de los coeficientes de regresión. La mayoría de los analistas de datos saben que la multicolinealidad no es algo bueno. Pero muchos no se dan cuenta de que hay varias situaciones en las que la multicolinealidad puede ignorarse con seguridad.

Antes de examinar esas situaciones, consideremos primero el diagnóstico de multicolinealidad más utilizado, el factor de inflación de la varianza (VIF). El VIF se puede calcular para cada predictor haciendo una regresión lineal de ese predictor en todos los demás predictores, y luego obteniendo el R 2 de esa regresión. El VIF es solo 1 / (1-R 2 ).

Se llama factor de inflación de la varianza porque estima cuánto se "infla" la varianza de un coeficiente debido a la dependencia lineal con otros predictores. Por lo tanto, un VIF de 1.8 nos dice que la varianza (el cuadrado del error estándar) de un coeficiente particular es 80% mayor de lo que sería si ese predictor no estuviera correlacionado por completo con todos los demás predictores.

El VIF tiene un límite inferior de 1 pero no un límite superior. Las autoridades difieren sobre qué tan alto debe ser el VIF para constituir un problema. Personalmente, tiendo a preocuparme cuando un VIF es mayor que 2.50, que corresponde a un R 2 de .60 con las otras variables.

Independientemente de su criterio para determinar lo que constituye un VIF alto, existen al menos tres situaciones en las que un VIF alto no es un problema y se puede ignorar con seguridad:

1. Las variables con VIF altos son variables de control y las variables de interés no tienen VIF altos. Aquí está lo que pasa con la multicolinealidad: es solo un problema para las variables que son colineales. Aumenta los errores estándar de sus coeficientes y puede hacer que esos coeficientes sean inestables de varias formas. Pero siempre que las variables colineales solo se utilicen como variables de control y no sean colineales con sus variables de interés, no hay problema. Los coeficientes de las variables de interés no se ven afectados y el desempeño de las variables de control como controles no se ve afectado.

Aquí hay un ejemplo de mi propio trabajo: la muestra está formada por universidades de EE. UU., La variable dependiente es la tasa de graduación y la variable de interés es un indicador (ficticio) de público frente a privado. Dos variables de control son los puntajes promedio del SAT y los puntajes promedio del ACT para los estudiantes de primer año que ingresan. Estas dos variables tienen una correlación superior a .9, lo que corresponde a VIF de al menos 5.26 para cada una de ellas. Pero el VIF para el indicador público / privado es solo 1.04. Por lo tanto, no hay ningún problema por el que preocuparse y no es necesario eliminar uno u otro de los dos controles.

2. Los VIF altos son causados ​​por la inclusión de potencias o productos de otras variables. Si especifica un modelo de regresión con ambos X y X 2, es muy probable que esas dos variables estén muy correlacionadas. Del mismo modo, si su modelo tiene X, z, y xz, ambos X y z es probable que estén altamente correlacionados con su producto. Sin embargo, esto no es algo de lo que preocuparse, porque el pag-valor por xz no se ve afectado por la multicolinealidad. Esto se demuestra fácilmente: puede reducir en gran medida las correlaciones "centrando" las variables (es decir, restando sus medias) antes de crear las potencias o los productos. Pero el pag-valor por X 2 o para xz será exactamente el mismo, independientemente de si te centras o no. Y todos los resultados de las otras variables (incluido el R 2 pero sin incluir los términos de orden inferior) será el mismo en ambos casos. Entonces la multicolinealidad no tiene consecuencias adversas.

3. Las variables con VIF altos son variables indicadoras (ficticias) que representan una variable categórica con tres o más categorías. Si la proporción de casos en la categoría de referencia es pequeña, las variables indicadoras necesariamente tendrán VIF altos, incluso si la variable categórica no está asociada con otras variables en el modelo de regresión.

Suponga, por ejemplo, que una variable de estado civil tiene tres categorías: actualmente casado, nunca casado y anteriormente casado. Eliges Casados ​​anteriormente como categoría de referencia, con variables indicadoras para los otros dos. Lo que sucede es que la correlación entre esos dos indicadores se vuelve más negativa a medida que la fracción de personas en la categoría de referencia se hace más pequeña. Por ejemplo, si el 45 por ciento de las personas nunca están casadas, el 45 por ciento están casadas y el 10 por ciento están casadas anteriormente, los VIF para los indicadores de casados ​​y nunca casados ​​serán al menos 3.0.

¿Es esto un problema? Bueno, significa que pag-Los valores de las variables indicadoras pueden ser altos. Pero la prueba general que todos Los indicadores que tienen coeficientes de cero no se ven afectados por los VIF altos. Y nada más en la regresión se ve afectado. Si realmente desea evitar los VIF altos, simplemente elija una categoría de referencia con una fracción mayor de los casos. Eso puede ser deseable para evitar situaciones en las que ninguno de los indicadores individuales sea estadísticamente significativo, aunque el conjunto general de indicadores sea significativo.


Contenido

Un conjunto de datos tiene norte valores marcados y1. ynorte (conocido colectivamente como yI o como vector y = [y1. ynorte] T ), cada uno asociado con un valor ajustado (o modelado o predicho) F1. Fnorte (conocido como FI, o algunas veces ŷI, como un vector F).

Defina los residuos como miI = yIFI (formando un vector mi).

entonces la variabilidad del conjunto de datos se puede medir con dos fórmulas de sumas de cuadrados:

  • La suma total de cuadrados (proporcional a la varianza de los datos):
  • La suma de cuadrados de residuos, también llamada suma de cuadrados de residuos:

La definición más general del coeficiente de determinación es

Relación con la variación inexplicable Editar

En forma general, R 2 puede verse relacionado con la fracción de varianza inexplicada (FVU), ya que el segundo término compara la varianza no explicada (varianza de los errores del modelo) con la varianza total (de los datos):

Varianza explicada Editar

Suponer R 2 = 0,49. Esto implica que se ha tenido en cuenta el 49% de la variabilidad de la variable dependiente en el conjunto de datos, y el 51% restante de la variabilidad aún no se ha tenido en cuenta. Para los modelos de regresión, la suma de cuadrados de regresión, también llamada suma de cuadrados explicada, se define como

En algunos casos, como en la regresión lineal simple, la suma total de cuadrados es igual a la suma de las otras dos sumas de cuadrados definidas anteriormente:

Consulte Particionamiento en el modelo MCO general para obtener una derivación de este resultado para un caso en el que se cumple la relación. Cuando esta relación se mantiene, la definición anterior de R 2 es equivalente a

dónde norte es el número de observaciones (casos) sobre las variables.

Ene sta forma R 2 se expresa como la razón de la varianza explicada (varianza de las predicciones del modelo, que es SSreg / norte) a la varianza total (varianza muestral de la variable dependiente, que es SSnene / norte).

Esta partición de la suma de cuadrados se mantiene, por ejemplo, cuando los valores del modelo ƒI se han obtenido mediante regresión lineal. Una condición suficientemente leve dice lo siguiente: El modelo tiene la forma

donde el qI son valores arbitrarios que pueden o no depender de I o en otros parámetros libres (la elección común qI = XI es solo un caso especial), y las estimaciones de coeficientes α ^ < displaystyle < widehat < alpha >>> y β ^ < displaystyle < widehat < beta >>> se obtienen minimizando la suma residual de cuadrados.

Este conjunto de condiciones es importante y tiene varias implicaciones para las propiedades de los residuos ajustados y los valores modelados. En particular, bajo estas condiciones:

Como coeficiente de correlación al cuadrado Editar

En una regresión lineal de mínimos cuadrados con un término de intersección y un solo explicador, esto también es igual al coeficiente de correlación de Pearson al cuadrado de la variable dependiente y < displaystyle y> y la variable explicativa x.

No debe confundirse con el coeficiente de correlación entre dos estimaciones, definido como

donde la covarianza entre dos estimaciones de coeficientes, así como sus desviaciones estándar, se obtienen de la matriz de covarianza de las estimaciones de coeficientes.

En condiciones de modelado más generales, donde los valores predichos pueden generarse a partir de un modelo diferente de la regresión lineal de mínimos cuadrados, una R El valor 2 se puede calcular como el cuadrado del coeficiente de correlación entre los valores de datos originales y < displaystyle y> y f < displaystyle f> modelados. En este caso, el valor no es directamente una medida de cuán buenos son los valores modelados, sino más bien una medida de cuán bueno se podría construir un predictor a partir de los valores modelados (creando un predictor revisado de la forma α + βƒI). [ cita necesaria ] Según Everitt (p. 78), [10] este uso es específicamente la definición del término "coeficiente de determinación": el cuadrado de la correlación entre dos variables (generales).

R 2 es una estadística que proporcionará información sobre la bondad de ajuste de un modelo. [7] En regresión, el R El coeficiente de determinación 2 es una medida estadística de qué tan bien se aproximan las predicciones de regresión a los puntos de datos reales. Un R 2 de 1 indica que las predicciones de regresión se ajustan perfectamente a los datos.

Valores de R 2 fuera del rango de 0 a 1 puede ocurrir cuando el modelo se ajusta a los datos peor que un hiperplano horizontal. Esto ocurriría cuando se eligió el modelo incorrecto o se aplicaron restricciones sin sentido por error. Si se usa la ecuación 1 de Kvålseth [11] (esta es la ecuación que se usa con más frecuencia), R 2 puede ser menor que cero. Si se usa la ecuación 2 de Kvålseth, R 2 puede ser mayor que uno.

En todos los casos donde R 2, los predictores se calculan mediante regresión de mínimos cuadrados ordinarios: es decir, minimizando SSres. En este caso, R 2 aumenta a medida que aumenta el número de variables en el modelo (R 2 es monótono y aumenta con el número de variables incluidas; nunca disminuirá). Esto ilustra un inconveniente de un posible uso de R 2, donde uno podría seguir agregando variables (regresión del fregadero de la cocina) para aumentar la R 2 valor. Por ejemplo, si uno está tratando de predecir las ventas de un modelo de automóvil a partir del consumo de combustible, el precio y la potencia del motor del automóvil, se pueden incluir factores tan irrelevantes como la primera letra del nombre del modelo o la altura del ingeniero jefe que diseña. el coche porque el R 2 nunca disminuirá a medida que se agregan variables y probablemente experimente un aumento debido solo al azar.

Esto conduce al enfoque alternativo de mirar el ajustado R 2. La explicación de esta estadística es casi la misma que R 2, pero penaliza el estadístico ya que se incluyen variables adicionales en el modelo. Para casos distintos del ajuste por mínimos cuadrados ordinarios, el R 2 se puede calcular como se indicó anteriormente y aún puede ser una medida útil. Si el ajuste es por mínimos cuadrados ponderados o mínimos cuadrados generalizados, versiones alternativas de R 2 pueden calcularse de forma apropiada para esos marcos estadísticos, mientras que el "crudo" R 2 aún puede resultar útil si se interpreta más fácilmente. Valores para R 2 se puede calcular para cualquier tipo de modelo predictivo, que no necesita tener una base estadística.

En un modelo lineal múltiple Editar

Considere un modelo lineal con más de una variable explicativa, de la forma

donde, para el Ith caso, Y yo < displaystyle <>>> es la variable de respuesta, X i, 1,…, X i, p < displaystyle X_, puntos, X_> son pag regresores y ε i < displaystyle varepsilon _> es un término de error cero medio. Las cantidades β 0,…, β p < displaystyle beta _ <0>, dots, beta _

> son coeficientes desconocidos, cuyos valores se estiman por mínimos cuadrados. El coeficiente de determinación R 2 es una medida del ajuste global del modelo. Específicamente, R 2 es un elemento de [0, 1] y representa la proporción de variabilidad en YI que puede atribuirse a alguna combinación lineal de los regresores (variables explicativas) en X. [12]

Una advertencia que se aplica a R 2, en cuanto a otras descripciones estadísticas de correlación y asociación es que "correlación no implica causalidad". En otras palabras, si bien las correlaciones a veces pueden proporcionar pistas valiosas para descubrir relaciones causales entre variables, una correlación estimada distinta de cero entre dos variables no es, por sí sola, evidencia de que cambiar el valor de una variable resultaría en cambios en los valores de otras variables. Por ejemplo, la práctica de llevar fósforos (o un encendedor) se correlaciona con la incidencia de cáncer de pulmón, pero llevar fósforos no causa cáncer (en el sentido estándar de "causa").

En el caso de un solo regresor, ajustado por mínimos cuadrados, R 2 es el cuadrado del coeficiente de correlación producto-momento de Pearson que relaciona el regresor y la variable de respuesta. Más generalmente, R 2 es el cuadrado de la correlación entre el predictor construido y la variable de respuesta. Con más de un regresor, el R 2 puede denominarse coeficiente de determinación múltiple.

Inflación de R 2 Editar

En regresión de mínimos cuadrados utilizando datos típicos, R 2 aumenta al menos débilmente con los aumentos en el número de regresores en el modelo. Debido a que los aumentos en el número de regresores aumentan el valor de R 2 , R 2 por sí solo no se puede utilizar como una comparación significativa de modelos con números muy diferentes de variables independientes. Para una comparación significativa entre dos modelos, se puede realizar una prueba F en la suma de cuadrados residual, similar a las pruebas F en la causalidad de Granger, aunque esto no siempre es apropiado. Como recordatorio de esto, algunos autores denotan R 2 por Rq 2, donde q es el número de columnas en X (el número de explicadores incluida la constante).

Para demostrar esta propiedad, primero recuerde que el objetivo de la regresión lineal por mínimos cuadrados es

dónde XI es un vector de fila de valores de variables explicativas para el caso I y B es un vector columna de coeficientes de los elementos respectivos de XI.


Lección 8: Análisis de covarianza (ANCOVA)

En las siguientes dos unidades vamos a construir sobre conceptos que aprendimos hasta ahora en este curso, pero estas dos próximas unidades también nos recordarán los principios y fundamentos de la regresión que aprendió en STAT 501. Estos van a amplíe la idea del modelo lineal general y cómo puede manejar predictores tanto cuantitativos como cualitativos. En el modelo lineal general, cuando hablamos del análisis de covarianza, esto se puede considerar como una especie de cuadro más amplio, un procedimiento "paraguas" si se quiere. Si tiene un modelo en el que no tiene factores continuos, simplemente tiene un ANOVA. Si tiene un modelo sin factores categóricos, simplemente tiene una regresión. Si tiene un modelo que tiene factores continuos y categóricos, este es un modelo lineal general y puede usar ANCOVA para incluir estos dos tipos diferentes de factores.

Puede que le resulte interesante que históricamente cuando SAS salió por primera vez tenían PROC ANOVA y PROC REGRESSION y eso fue todo. Entonces la gente preguntó: "¿Qué pasa con el caso en el que tienes factores categóricos y quieres hacer un ANOVA pero ahora tienes esta otra variable, una variable continua, que puedes usar como covariable para dar cuenta de la variabilidad extraña en la respuesta?" Entonces, SAS presentó PROC GLM, que es el modelo lineal general. Con PROC GLM, puede tomar la variable de regresión continua, insertarla en el modelo ANOVA y se ejecuta. O, por el contrario, si está ejecutando una regresión y tiene un predictor categórico como el género, puede incluirlo en el modelo de regresión y se ejecuta. El modelo lineal general maneja tanto la regresión como las variables categóricas en el mismo modelo. No hay PROC ANCOVA es SAS pero hay PROC MIXTO. PROC GLM tuvo problemas cuando se trataba de efectos aleatorios y fue reemplazado efectivamente por PROC MIXED. El mismo tipo de proceso se puede ver en Minitab y tiene en cuenta las múltiples pestañas en Stat & gt ANOVA y Stat & gt Regression. En SAS PROC MIXED o en el modelo lineal general de Minitab, tiene la capacidad de incluir covariables y trabajar correctamente con efectos aleatorios. Pero ya basta de historia, vayamos a esta lección.

En la primera lección abordaremos el caso clásico de ANCOVA en el que el ANOVA se mejora potencialmente ajustando la presencia de una covariable lineal. En la segunda parte trataremos un poco más de complejidad al considerar funciones de la covariable que no son lineales. Generalizaremos el tratamiento de los factores continuos para incluir polinomios, con componentes lineales, cuadráticos, cúbicos que pueden interactuar con niveles de tratamiento categóricos.

Encontramos esta idea de ANCOVA no solo interesante en el hecho de que fusiona estos dos conceptos estadísticos, sino que también puede ser muy poderosa ¡Ajá! momento para los estudiantes que estudian estadística.

Introducción al análisis de covarianza (ANCOVA)

Un ANOVA "clásico" prueba las diferencias en las respuestas medias a los niveles de factor categórico (tratamiento). Cuando tenemos heterogeneidad en las unidades experimentales, a veces las restricciones sobre la aleatorización (bloqueo) pueden mejorar la prueba de los efectos del tratamiento. En algunos casos, no tenemos la oportunidad de construir bloques, pero podemos reconocer y medir una variable continua que contribuye a la heterogeneidad en las unidades experimentales.

Históricamente, estas fuentes de variabilidad extraña se han denominado variables "molestas" o "concomitantes". Más recientemente, estas variables se denominan "covariables".

Cuando se incluye una covariable continua en un ANOVA, tenemos el análisis de covarianza (ANCOVA). Las covariables continuas ingresan al modelo como variables de regresión, y debemos tener cuidado de seguir varios pasos para emplear el método ANCOVA.

La inclusión de covariables en los modelos ANCOVA a menudo significa la diferencia entre concluir que hay o no hay diferencias significativas entre las medias de tratamiento utilizando ANOVA.


Ejemplos, problemas y soluciones de regresión lineal simple

La regresión lineal simple nos permite estudiar la correlación entre solo dos variables:

  • Una variable (X) se llama variable independiente o predictor.
  • La otra variable (Y), se conoce como variable dependiente o resultado.

y la ecuación de regresión lineal simple es:

X - el valor de la variable independiente,
Y - el valor de la variable dependiente.
Β0 - es una constante (muestra el valor de Y cuando el valor de X = 0)
Β1 - el coeficiente de regresión (muestra cuánto cambia Y por cada cambio de unidad en X)

Tienes que estudiar la relación entre las ventas mensuales de comercio electrónico y los costes de publicidad online. Tienes los resultados de la encuesta de 7 tiendas online del último año.

Su tarea es encontrar la ecuación de la línea recta que mejor se ajuste a los datos.

La siguiente tabla representa los resultados de la encuesta de las 7 tiendas en línea.

En línea
Tienda
Ventas mensuales de comercio electrónico
(en 1000 s)
Dólares de publicidad online (1000 s)
13681.7
23401.5
36652.8
49545
53311.3
65562.2
73761.3

Podemos ver que hay un Relación positiva entre las ventas mensuales de comercio electrónico (Y) y los costos de publicidad en línea (X).

La correlación positiva significa que los valores de la variable dependiente (y) aumentan cuando los valores de la variable independiente (x) aumentan.

Entonces, si queremos predecir las ventas mensuales de comercio electrónico a partir de los costos de publicidad en línea, cuanto mayor sea el valor de los costos de publicidad, mayor será nuestra predicción de ventas.

Usaremos los datos anteriores para construir nuestro diagrama de dispersión.

Ahora, veamos & # 8217 cómo el diagrama de dispersión parece:

El gráfico de dispersión muestra cuánto afecta una variable a otra. En nuestro ejemplo, el gráfico de dispersión anterior muestra cuánto afectan los costos de publicidad en línea a las ventas mensuales de comercio electrónico. Muestra su correlación.

Veamos & # 8217s la ecuación de regresión lineal simple.

Y = 125,8 + 171,5 * X

Nota: Puede encontrar fácilmente los valores de Β0 y Β1 con la ayuda de software estadístico de pago o gratuito, calculadoras de regresión lineal en línea o Excel. Todo lo que necesita son los valores de las variables independientes (x) y dependientes (y) (como las de la tabla anterior).

Ahora, tenemos que ver nuestra línea de regresión:

Gráfico de la recta de regresión:

La regresión lineal tiene como objetivo encontrar la línea recta que mejor se ajuste a través de los puntos. La línea que mejor se ajusta se conoce como línea de regresión.

Si los puntos de datos están más cerca al trazar una línea recta, significa que la correlación entre las dos variables es mayor. En nuestro ejemplo, la relación es fuerte.

La línea diagonal naranja en el diagrama 2 es la línea de regresión y muestra la puntuación prevista en las ventas de comercio electrónico para cada valor posible de los costos de publicidad en línea.

Interpretación de los resultados:

La pendiente de 171,5 muestra que cada aumento de una unidad en X, predecimos que el promedio de Y aumentará en un estimado de 171,5 unidades.

La fórmula estima que por cada aumento de 1 dólar en los costos de publicidad en línea, se prevé que las ventas de comercio electrónico mensuales esperadas aumenten en $ 171.5.

Este fue un ejemplo de regresión lineal simple para una relación positiva en los negocios. Veamos & # 8217s un ejemplo de la relación negativa.

Debe examinar la relación entre la edad y el precio de los autos usados ​​vendidos en el último año por una empresa concesionaria de automóviles.

Aquí está la tabla de datos:

Antigüedad del coche (en años) Precio (en dólares)
46300
45800
55700
54500
74500
74200
84100
93100
102100
112500
122200

Ahora, vemos que tenemos una relación negativa entre el precio del automóvil (Y) y la antigüedad del automóvil (X) & # 8211 a medida que aumenta la edad del automóvil, el precio disminuye.

Cuando usamos la ecuación de regresión lineal simple, tenemos los siguientes resultados:

Usemos & # 8217s los datos de la tabla y creemos nuestro diagrama de dispersión y la línea de regresión lineal:

Los 3 diagramas anteriores están hechos con Meta Chart.

Interpretación del resultado:

Con una pendiente estimada de -502.4, podemos concluir que el precio promedio de un automóvil disminuye $ 502.2 por cada año que un automóvil aumenta de edad.

Los ejemplos y problemas de regresión lineal simple anteriores tienen como objetivo ayudarlo a comprender mejor la idea completa detrás de la ecuación de regresión lineal simple.


La resolución de problemas mediante la regresión lineal tiene muchas aplicaciones en los negocios, la experiencia del cliente digital, social, biológica y muchas otras áreas.

Si necesita más ejemplos en el campo de la estadística y el análisis de datos o más tipos de visualización de datos, nuestras publicaciones & # 8220 ejemplos de estadísticas descriptivas & # 8221 y & # 8220 ejemplos de distribución binomial & # 8221 pueden serle útiles.

Descargue la siguiente infografía en PDF con los ejemplos de regresión lineal simple:

Sobre el Autor

Silvia Valcheva

Silvia Valcheva es una comercializadora digital con más de una década de experiencia en la creación de contenido para la industria tecnológica. Tiene una gran pasión por escribir sobre software y tecnologías emergentes como big data, IA (inteligencia artificial), IoT (Internet de las cosas), automatización de procesos, etc.

3 comentarios

Hola. Realmente disfruto tu artículo, me parece que puede ayudar a muchos estudiantes a mejorar sus habilidades.
Gracias,