观察到的等位基因频率是否明显低于预期?


10

问题:如何构建测试以确定中部至南部山区观察到的“山”-等位基因频率(图1)是否明显低于生态选择模型所预测的(图2)(请参见下文)?

问题:我最初的想法是使模型残差相对于纬度:经度和海拔高度回归(这仅导致纬度和经度之间的相互作用显着)。问题在于,残基(图3)可能反映了模型无法解释的变异和/或它们是生物学上正在发生的事情,例如,等位基因没有时间向南扩散至其潜能,或者基因流存在一定障碍。如果将观察到的(图1)与预期的(图2)山等位基因频率进行比较,则存在明显的差异,尤其是在瑞典和挪威的中南部山脉。我接受该模型可能无法解释所有变化,但是我可以提出一个合理的检验来探索山等位基因尚未在中部至南部山区发挥其潜力的想法吗?

背景:我有一个双等位基因AFLP标记,其频率分布似乎与斯堪的纳维亚半岛的山地(和纬度:经度)与低地栖息地有关(图1)。“山”等位基因几乎固定在多山的北部。南部缺少山脉的“低地”等位基因几乎不存在或固定。当一个人从山上向南移动时,“山”等位基因的发生频率较低。从北到南的“山脉”等位基因频率的差异可能仅是由于系统地理学或历史过程造成的,因为该地区是从北部和南部开始殖民的。例如,如果高山等位基因起源于北部人口,那么也许它还没有时间完全扩展到南部人口,

我的工作假设是“山”等位基因频率是生态选择的结果(无效假设是中性选择)。

对于我的生态选择模型,我使用了以二项式等位基因频率作为响应变量的广义加性模型(GAM)(在Fennoscandinavia上采样了129个站点,每个站点通常采样了10至20个个体),并在以下几个气候和生长季节变量中:预测变量。模型结果如下(TMAX04-06 = 4月至6月的最高温度,Phen_NPPMN =平均生长期植被生产力,PET_HE_YR =年潜在蒸散量,Dist_Coast =到海岸的距离):

Family: binomial 
Link function: logit 

Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + 
s(PET_HE_YR) + s(Dist_Coast)

Parametric coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.74372    0.04736   -15.7   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Approximate significance of smooth terms:
             edf Ref.df Chi.sq  p-value    
s(TMAX_04)    3.8100  4.812 25.729 9.43e-05 ***
s(TMAX_05)    0.8601  1.000  5.887  0.01526 *  
s(TMAX_06)    0.8862  1.000  7.644  0.00569 ** 
s(Phen_NPPMN) 6.2177  7.375 39.028 3.16e-06 ***
s(PET_HE_YR)  3.1882  4.147 18.039  0.00145 ** 
s(Dist_Coast) 2.2882  2.857  9.725  0.01906 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

R-sq.(adj) =  0.909   Deviance explained = 89.7%
REML score = 326.73  Scale est. = 1         n = 129

在此处输入图片说明

图1.双等位基因AFLP标记的“山”等位基因频率。等高线为0.1个频率间隔,颜色阴影是高度,蓝色为最低,红色为最高。

在此处输入图片说明

图2.双等位基因AFLP标记的预测的“山”-等位基因频率。等高线为0.1个频率间隔,颜色阴影是高度,蓝色为最低,红色为最高。

在此处输入图片说明

图3.生态选择模型(使用GAM)残差在整个研究区域(芬诺斯堪的纳维亚半岛)和挪威,瑞典和芬兰分别细分。红色虚线表示从其他AFLP标记推断出的北部和南部种群之间的次要接触区,并且对在非洲不同的越冬地上生长的羽毛进行了稳定的同位素分析。黑色细虚线是该区域的中心。


1
感谢您的大量细节。空模型如何成为问题?似乎只有生态选择模型在比较观察值与预期值时才有意义。
gui11aume12年

您这里的实际数据是什么?模型输出显示“ n = 129”,但是那是129个个体,或每个位点有129个等位基因频率,或...?
一站式服务

抱歉,我想提供尽可能多的背景信息,以使大家都能最好地理解我正在编写的手稿的处理方法的逻辑(或不合理)。我的问题是最重要的,我想找到一个理由,以确定观察到的和预期的差异是否显着不同。这可能会告诉我等位基因是否仍在传播,或者在达到期望值方面存在一些障碍。至于“ N = 129”,因为这是等位基因频率,这意味着129个位点通常在每个位点采样10至20个人。
基思·拉尔森

您提到个人似乎对母体和染色体位点恐慌。您可以访问这些数据吗?您如何评估泛滥症?
Sameer 2012年

Answers:


1

这个问题可能已经死了,但是这里的图表很漂亮,并且答案在直觉上很明显。如果您正在寻找“山”等位基因,则显而易见的选择是使用海拔(或它的某种替代)作为预测因子。如果这表明与等位基因频率有显着关联,则将为您的假设提供有力的证据。

您可能会添加更多预测变量,这些变量描述了除海拔以外的其他山区信息(例如,地形“崎“”或植被类型),这些变量是唯一的山区,也可能与等位基因频率相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.