统计和大数据 glmm

1

我正在处理数据集。使用一些模型识别技术后，我得出了一个ARIMA（0,2,1）模型。我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值（IO）。如何将这个离群值合并到模型中，以便将其用于预测？我不想使用ARIMAX模型，因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗？以下是我的价值观： VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

如何获得总体r平方变化的置信区间

为了简单的示例，假设有两个线性回归模型模型1有三个预测，x1a，x2b，和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程，其中模型1 解释的种群方差为，模型解释为。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2（2 ）- ρ2（1 ）Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量，但我的研究兴趣涉及大量不同数量的预测变量（例如5个和30个）。我首先想到的是使用 Δ [R2一dĴ= r2一dj （2 ）- - [R2一dĴ （1 ）Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导，但是我不确定是否会适当的。问题是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2？如何获得总体r平方变化的置信区间（即Δ ρ2Δρ2\Delta\rho^2）？引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间？任何对模拟或已发表文献的引用也将受到欢迎。范例程式码如果有帮助，我在R中创建了一个小的模拟数据集，可用于演示答案： …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

3

固定效果与随机效果

我最近开始学习广义线性混合模型，并且正在使用R探索将组成员身份视为固定或随机效应有何不同。特别是，我正在查看此处讨论的示例数据集： http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm 正如本教程中概述的那样，Doctor ID的作用是可观的，我期望随机截距的混合模型能够提供更好的结果。但是，比较两种方法的AIC值表明此模型较差： > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

10 r random-effects-model glmm

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

广义线性混合模型：模型选择

这个问题/主题是在与一位同事的讨论中提出的，我正在就此寻求一些意见：我正在使用随机效应逻辑回归建模一些数据，更确切地说是随机截距逻辑回归。对于固定效果，我有9个有趣且值得考虑的变量。我想进行某种模型选择，以找到重要的变量并给出“最佳”模型（仅主要效果）。我的第一个想法是使用AIC比较不同的模型，但是使用9个变量，我比较比较2 ^ 9 = 512个不同的模型（关键字：数据挖掘）并不太令人兴奋。我与一位同事讨论了这个问题，他告诉我，他记得曾经读过关于对GLMM使用逐步（或向前）模型选择的文章。但是应该使用AIC作为进入/退出标准，而不是使用p值（例如，基于GLMM的似然比检验）。我发现这个想法非常有趣，但是我没有找到进一步讨论此问题的参考资料，而我的同事不记得他在哪里读过。许多书籍建议使用AIC来比较模型，但是我没有找到关于将其与逐步或向前模型选择过程一起使用的任何讨论。所以我基本上有两个问题：在逐步模型选择过程中将AIC用作进入/退出标准有什么问题吗？如果是，那有什么选择？您是否有参考资料讨论上述过程（也作为最终报告的参考资料？最好，艾米利亚

10 mixed-model model-selection aic glmm stepwise-regression

1

什么是Hommel Hochberg校正？

最近，我被介绍给Hommel Hochberg更正。我试图找到关于这实际上是/确实是什么的简单解释，但是没有运气。任何人都可以对Hommel Hochberg修正进行简短的描述吗？

10 hypothesis-testing multiple-comparisons p-value glmm

3

多次表面接触后手指上的细菌积聚：非正常数据，重复测量，交叉参与者

介绍我有一些参与者在两种情况下反复接触被大肠杆菌污染的表面（A =戴手套，B =不戴手套）。我想知道戴着和不戴着手套的指尖上的细菌数量之间以及接触数之间是否存在差异。这两个因素都是参与者。实验方法：参与者（n = 35）用同一根手指触摸每个方块一次，最多8个接触点（见图a）。然后，我擦拭参与者的手指，并在每次接触后测量指尖上的细菌。然后，他们用一根新手指触摸不同数量的表面，以此类推，从1到8个触点（见图b）。这是真实数据：真实数据该数据是非正态的，因此请参见下面的细菌边际分布| NumberContacts。x ＝细菌。每个方面都是不同数量的联系人。模型根据使用gamma（link =“ log”）和NumberContacts的多项式的变形虫的建议，从lme4 :: glmer尝试： cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) 注意 Gamma（link =“ inverse”）不会说PIRLS减半未能减少偏差。结果： cfug的拟合vs残差 qqp（resid（cfug））题：是否正确定义了我的glmer模型，以纳入每个参与者的随机影响以及每个人都同时进行实验A和实验B的事实？加成：参与者之间似乎存在自相关。这可能是因为没有在同一天对它们进行测试，并且细菌瓶随着时间的推移而增长和下降。有关系吗？ acf（CFU，lag = 35）显示一个参与者与另一个参与者之间的显着相关性。

9 r anova repeated-measures lme4-nlme glmm

1

使用lme4 glmer和glmer.nb帮助解释计数数据GLMM-负二项式与Poisson

我对GLMM的规范和解释有一些疑问。3个问题绝对是统计学上的问题，2个是关于R的更具体的问题。我在这里发布，因为最终我认为问题是GLMM结果的解释。我目前正在尝试安装GLMM。我使用的是美国经纬度数据库中的美国人口普查数据。我的观察是人口普查区。我的因变量是空置住房的数量，我对空置与社会经济变量之间的关系很感兴趣。这里的示例很简单，仅使用两个固定的影响：非白人人口百分比（种族）和家庭收入中位数（阶级）及其相互作用。我想包括两个嵌套的随机效应：几十年和几十年之内的片段，即（十年/片段）。我正在考虑这些随机变量，以控制空间（即区域之间）和时间（即数十年之间）的自相关。但是，我也对十年作为固定影响感兴趣，因此我也将它作为固定因素包括在内。由于我的自变量是非负整数计数变量，因此我一直在尝试拟合泊松和负二项式GLMM。我使用的是房屋总数的对数。这意味着系数被解释为对空置率的影响，而不是对空置房屋总数的影响。我目前有使用lme4的glmer和glmer.nb估计的泊松和负二项式GLMM的结果。根据我对数据和研究领域的了解，对系数的解释对我来说很有意义。如果您需要数据和脚本，它们位于我的Github上。该脚本包括我在构建模型之前所做的更多描述性调查。这是我的结果：泊松模型 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid 34520.1 34580.6 …

9 r lme4-nlme poisson-distribution negative-binomial glmm

Questions tagged «glmm»