Questions tagged «experiment-design»

研究如何在存在差异的情况下构建信息收集练习。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
ITT和ATE有什么区别?
我很难理解可以在影响评估中使用的不同估计量。我知道意向性(ITT)估算器会比较没有该计划的合格个人与有该计划的合格个人之间的差异,而不管其遵守情况如何。但是,我认为平均治疗效果(ATE)也能测量出相同的结果。但是,ATE似乎考虑了合规性。因此,它比较了符合条件和接受治疗的患者与不符合条件的患者的结局。它是否正确?


1
为什么在拉丁方格中将行,处理和列称为正交
我一直在几何学领域听说过“正交”(也请注意,我不是英语母语人士)。对于拉丁方,我不理解以下内容(教科书中的引用): 每种处理(ABCD)每行出现一次。因此,处理和行是正交的。...行和列与处理正交。 12341ABCD2BCDA3CDAB4DABC12341ABCD2BCDA3CDAB4DABC\begin{matrix}\,&1&2&3&4\\1&A&B&C&D\\2&B&C&D&A\\3&C&D&A&B\\4&D&A&B&C\end{matrix} 正交在这里是什么意思?

1
什么是关于高级实验的好的现代书籍/资源?
我正在寻找的资源(不一定是一本书)将涵盖一些更具挑战性的实验设计和统计分析案例。我希望涵盖一些情况: 1.随机单位与分析单位不同的情况 示例:我运行了一个具有M个卖家和N个买家的电子商务平台,我想介绍一种卖家级别的待遇,但对买家进行购买的可能性感兴趣。典型的买家将在一个会话中访问数家商店。 2.结果变量高度偏斜 示例:我运行了一个呼叫中心,我想尝试提示客户在到达座席之前输入其客户ID。我希望减少平均通话时间。电话分配极为不正确。 3.治疗组的形状分布不同 示例:相同的呼叫中心,但现在我的治疗方法对于较短的呼叫效果更好,而对于较长的呼叫效果稍差。分析此问题的正确方法是什么? 4.治疗本身会使我的团队失去平衡 示例:与1中相同的电子商务平台,但现在我想尝试使用不同的排名机制。通过分配给更有利的排名,卖方可能希望提高价格,增加库存,更改营销策略等,从而使这些变量中的一些对于不同的处理方式系统地不同。

1
实验设计研究生课程应涵盖哪些内容?
我被要求为农学和生态学的高级研究生提议一门实验设计课程。我从未参加过这样的课程,并且惊讶地发现该课程可能更恰当地命名为“超越单向方差分析”,并且涵盖了我在农业统计学实验高级研究生课程中学习到的材料(例如RCBD,拉丁方,对比度,重复测量和协变量)。也许我对“实验设计”而不是“实验结果分析”感到困惑。 我对此类课程应包含的内容有一些想法,并希望就如何将其整合到满足学生需求的统计学课程中的反馈意见,同时为设计和相关测试的命名列表提供现代替代方案。 例如,当我教学生比较具有线性和二次函数的回归模型时,我无法想象教他们使用ANOVA来对连续变量进行分类,从而使用线性和二次对比。在第二种情况下,他们还将学习如何处理不是实验定义的离散值的因素。如果有的话,我可以比较两种方法。 如果我要教授“实验设计”课程,我真的很想强调与应用的统计模型无关的基本概念,并且这些基本概念将更广泛地转化为其他问题。这将使学生更加灵活地使用现代统计方法。 现有课程中似乎未涵盖的一些相关概念包括: 分层模型和混合模型(我以ANOVA和亲戚为例) 模型比较(例如替换对比) 使用空间模型代替块作为“因素” 复制,随机化和IID 假设检验,p-hacking和模式识别之间的差异。 通过仿真进行功率分析(例如,从仿真数据集中恢复参数), 预注册, 利用已发表的研究和科学原理中的先验知识。 目前有没有采用这种方法的课程?有没有这样关注的教科书?

1
用于(最佳)实验统计设计的良好,有用和特征性实验
与替代的有效设计策略相比,可以应用实验设计的现象更多。这是对的,尽管有许多方法可以适当地设计实验。 什么是最好的“问题”,才能真正证明不同类型的实验优化设计的价值和细微差别?(A,D,E,C,V,phi,....) 您能否提供书籍,链接,文章,参考资料,或者至少提供以经验为依据的良好见解?

3
随机分配:为什么要打扰?
随机分配很有价值,因为它可以确保治疗与潜在结果的独立性。这就是如何导致对平均治疗效果的无偏估计。但是其他分配方案也可以系统地确保治疗与潜在结果的独立性。那么为什么我们需要随机分配呢?换句话说,与非随机分配方案相比,随机分配又有什么优点呢? 令为治疗分配的向量,其中每个元素为0(未分配给治疗的单位)或1(分配给治疗的单位)。在一个JASA制品,安格里斯特,Imbens,和Rubin(1996,446-47)说治疗分配是随机的,如果表示所有\ mathbf {c}和\ mathbf {c'},使得\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c'},其中\ iota是一个所有元素等于1的列向量。ZZ\mathbf{Z}ZiZiZ_iPr(Z=c)=Pr(Z=c′)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c}c′c′\mathbf{c'}ιTc=ιTc′ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 换句话说,如果包括m个治疗分配的任何分配向量与包括m个治疗分配的任何其他向量一样有可能,则分配ZiZiZ_i是随机的。mmmmmm 但是,为了确保潜在结果与治疗分配的独立性,足以确保研究中的每个单元都具有相等的分配给治疗的可能性。即使大多数治疗分配向量的选择概率为零,也很容易发生这种情况。即,即使在非随机分配下也可能发生。 这是一个例子。我们想用四个单元运行一个实验,其中两个单元将被正确处理。有六个可能的分配向量: 1100 1010 1001 0110 0101 0011 每个数字中的第一个数字表示是否已治疗第一个单元,第二个数字表示是否已治疗第二个单元,依此类推。 假设我们进行了一个实验,其中排除了赋值向量3和4的可能性,但是其中每个其他向量的选择机会均等(25%)。从AIR的意义上讲,该方案不是随机分配。但可以预料的是,这将导致平均治疗效果的无偏估计。那绝不是偶然的。任何给予受试者相等分配给治疗可能性的分配方案,将允许对ATE进行无偏估计。 那么:为什么我们需要AIR的随机分配?我的论点植根于随机推理。如果有人以基于模型的推理来思考,那么AIR的定义似乎更可辩护吗?


1
我应该重新整理我的数据吗?
我们有一套生物学样品,价格昂贵。我们对这些样本进行了一系列测试,以生成用于构建预测模型的数据。为此,我们将样本分为训练(70%)和测试(30%)组。我们已经成功创建了一个模型,并将其应用于测试集,以发现性能“未达到最佳”。实验人员现在希望改善生物学测试,以创建更好的模型。假设我们无法获得新的样本,您是否建议我们重新整理样本以创建新的训练和验证集或坚持原来的划分。(我们没有任何迹象表明该部门存在问题)。

3
混淆变量怎么办?
我需要做一个实验。首先让我描述一下目前的情况。我工作的公司是电影院。它有一个游戏区,在那里等待电影的人可以通过玩游戏来消磨时间。人们只能使用预付会员卡付款。不幸的是,这个游戏部门没有产生足够的销售额。我们正在寻找原因。 我的假设是,如果我们接受现金付款,销售额将会增加。 我的计划是要有实验组和对照组。实验组将接受现金付款,对照组则不接受。在实验之前和之后,两组的销售额都被计算。 困难的是,我找不到将“现金支付”因素与其他因素区分开的方法: 电影院里放映的电影不错时,会有更多的人前来,销量也将增加 每个电影院只有一个游戏区,我不能将其分成两个区(一个接受现金,另一个不接受现金) 如果几个站点接受现金而其他一些站点不接受现金,我认为我不能直接比较结果,因为访问者不同,游戏机数量也不同 我正在寻找隔离此“现金支付”变量的建议,或者可能是另一种方法。

1
实验中拉丁方的理想和不良特性?
粗略的搜索表明,拉丁方格在实验设计中被广泛使用。在攻读博士学位期间,我研究了拉丁方格的各种理论特性(从组合角度出发),但是对拉丁方格的特长没有深入的了解,这使得拉丁方格特别适合于实验设计。 我知道拉丁方格擅长让统计学家有效地研究存在两个因素在不同“方向”上有所不同的情况。但是,我也相当有信心可以使用许多其他技术。 拉丁方格特别适合使实验设计适合其他设计所没有的拉丁方格呢? 此外,还有成千上万的拉丁广场可供选择,那么您选择哪个拉丁广场呢?我知道随机选择一个很重要,但是仍然会有一些拉丁方比其他方格不适合进行实验(例如,循环组的Cayley表)。这就提出了以下问题。 对于实验设计,拉丁方格的哪些属性是理想的,而拉丁方格的哪些属性则是不良的?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.