Questions tagged «experiment-design»

研究如何在存在差异的情况下构建信息收集练习。

4
寻求费舍尔关于能源部的报价的真实例证
我和我的团队想向公司的非统计学家介绍实验设计的实用性。这些非统计人员也是我们的客户,在收集数据之前,他们通常不咨询我们。您是否知道一些真实的例子,可以很好地说明费舍尔的名言:“在实验完成后打电话给统计学家,可能只不过是要求他进行验尸检查:他只能说出实验死了什么的。” ?优选地,我们正在工业/制药/生物环境中寻找例证。我们想到一个无定论的统计分析示例,如果初步设计合理,它可能会成功,但也许还有其他可能的例证。

3
如果事先声明,可以动态增加样本数量吗?
我将研究一种刺激与受试者内部设计相比另一种刺激的优点。我有一个排列方案,旨在减少研究某些部分的顺序影响(任务类型顺序,刺激顺序,任务集顺序)。排列方案规定样本大小可被8整除。 要确定样本数量,我必须大胆猜测(在我的领域中是一个很好的传统),或者为我所需的功效计算样本数量。现在的问题是,我没有丝毫线索要观察多大的效果(这也是我所在领域的良好传统)。这意味着功率计算有些困难。另一方面,大胆猜测可能也是不好的,因为我要么得出的样本量太小,要么向参与者支付太多的钱,而在实验室中花费了太多的时间。 是否可以预先声明我分8个人加入参与者,直到我离开两个p值的通道?例如0.05 <p <0.30?或者,您会建议我如何继续?

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

3
实验设计中可能存在的混淆
问题概述 警告:这个问题需要很多设置。请多多包涵。 我和我的一位同事正在进行实验设计。设计必须解决许多约束,我将在下面列出。我已经开发出一种可以满足约束条件的设计,并且可以对我们的利益产生无偏的估计。但是,我的同事认为设计中存在混淆。我们在没有解决问题的情况下就这一点进行了辩论,因此,在此我想提出一些外部意见。 我将在下面描述研究的目标,我们的制约因素,潜在的困惑以及为什么我相信这个“​​困惑”不是问题。在阅读每一部分时,请记住我的总体问题: 我描述的设计中是否有混淆? [此实验的细节已修改,但提出我的问题所需的基本要素保持不变] 实验目标 我们希望确定白人男性撰写的论文是否比白人女性,黑人男性或黑人女性撰写的论文(论文作者身份变量)更受好评。我们还希望确定我们发现的任何偏差在高质量或低质量的赠款(质量变量)中是否显示更多。最后,我们希望包括有关12个不同主题(主题变量)的论文。但是,只有前两个变量具有实质意义。尽管主题必须随文章的不同而不同,但是我们对评估在主题之间的不同方式没有实质性的兴趣。 约束条件 我们可以收集的参与者数量和论文数量都有限制。结果是,作者身份不能完全在参与者之间操纵,也不能完全在论文之间操纵(即,每篇单独的论文必须分配给多个条件)。 尽管每篇文章都可以有白人,白人,黑人和黑人女性,但是每篇文章只能是高质量和低质量之一,并且只能涉及一个主题。或者,以不同的方式施加此约束,论文中的质量和主题都无法操纵,因为它们是给定论文的固有特征。 由于疲劳,给定参与者可以评估的论文数量有限。 给定人员阅读的所有文章都必须与单个主题有关。换句话说,不能将论文完全随机地分配给参与者,因为我们需要确保每个参与者仅阅读相似主题的论文。 每个参与者只能查看一个据称由非白人男性作者撰写的论文,因为我们不希望参与者对实验的目的产生怀疑,因为他们的论文太多是由黑人或女性作者撰写的。 拟议的设计 我提出的设计首先将每篇文章分成4种不同的作者版本(白人男性,白人女性等)。然后,使用来自相似主题的四篇论文来定义一个“集合”,每篇论文都由两篇高质量和两篇低质量的论文组成。每个参与者从给定的集合中收到三篇论文,如下图所示。然后,每个参与者对他或她分配的三篇论文中的每篇论文都提供一个单独的评分。 潜在的困惑 我的同事认为上述设计存在混淆。他说,问题在于,当高质量的论文被指派由非白人男性作家撰写时,它总是与一篇高质量的论文和一部劣质的论文配对(关于论文1,请参见参与者1-3在图中)。另一方面,当同一篇论文被指派由白人男性作家撰写时,它与一部高质量的论文和一部低质量的论文配对三遍(对于论文1,参与者4-6)和两篇低质量的论文三对。次(论文1,参与者7-9)。 低质量的论文也存在类似的问题。当低质量的论文有非白人男性作者时,通常会以低质量的论文和高质量的论文来见(关于论文3,请参见参与者7-9)。但是,当同一篇文章中有一位白人男性作者时,可以看到一篇高质量的论文和一篇低质量的论文三遍(对于论文3,参与者10-12),而两次高质量的论文则是三遍(对于论文3,参与者1-3)。 上述模式可能存在问题的原因是,如果我们假设存在“对比效果”。具体而言,如果将高质量的论文与两份低质量的论文搭配在一起比在一篇低质量的论文和一份高质量的论文(合理的假设)上配对的平均评价更好,那么白人男性论文可能会获得比白人女性,黑人男性和黑人女性散文是作者身份以外的原因。 低质量论文的对比效果可能会或可能不会平衡高质量论文的对比效果;也就是说,对低质量论文和两篇高质量论文进行配对的情况可能会,也可能不会,特别是不利。无论如何,我的同事认为,任何形式的对比效果都可能使该设计成为问题,以便确定白人男性撰写的论文是否比其他作者的论文更受好评。 为什么我相信潜在的困惑不是问题 对我来说重要的是,即使存在对比效应,我们是否能够估计白人男性论文与其他论文的评价程度(即我们是否可以估计我们感兴趣的效果)。因此,我进行了一次模拟,在其中模拟了50个包含对比效果并适合测试我们感兴趣的效果的数据集。 具体模型是一种混合效果模型,具有随机的文章截距(每篇论文由多个参与者评估)和参与者(每个参与者评估多篇论文)。文章级别还包含种族,性别及其相互作用的随机斜率(这两个变量都在文章中操纵),参与者级别也包含质量的随机斜率(质量在参与者内部操纵)。兴趣的影响是种族,性别,种族与性别之间的相互作用以及这些变量和质量中的每一个之间的高级交互作用的影响。此模拟的目的是确定在数据中引入对比效果是否会造成种族,性别,种族与性别之间的相互作用,以及这些变量和质量之间的高级交互作用。有关更多详细信息,请参见下面的代码块。 根据模拟,对比效果的存在不会使我们感兴趣的任何效果的估计值产生偏差。此外,可以在与设计中其他效果相同的统计模型中估算对比效果的大小;对我来说,这已经表明我的同事所确定的“对比效果”并不是一个困惑。但是,我的同事仍然持怀疑态度。 require(lme4) require(plyr) participant <- rep(1:12, 3) essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9)) quality <- ifelse(essay == 1 | essay == 2, …

2
该 -test VS的 -试验比较2组患感冒的几率
我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。 研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。 无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。 鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。 首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082p=.082p=.082 现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)

2
将数据分为测试和训练集纯粹是一种“统计”事情吗?
我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。 关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。 还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。

1
具有采样变量的混合效应模型设计
我正在尝试lme4为实验设计指定线性混合效果模型(带有)的公式,但是不确定执行是否正确。 设计:基本上,我正在测量植物的响应参数。我有4种治疗水平和2种灌溉水平。将植物分为16个地块,在每个地块中,我对4个子图进行采样。在每个子图中,我进行15到30次观察(取决于发现的植物数量)。即,总共有1500行。 最初,子图级别只是出于采样目的,但是我想在模型中将其考虑在内(作为64级变量),因为我看到从一个子图到另一个子图有很多可变性,即使在同一图内(大于整个图之间的差异)。 我的第一个想法是写: library(lme4) fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata) 要么 fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata) 那是对的吗?我不确定是否必须在公式中同时保留两个图/子图级别。没有固定的影响是重要的,但随机的影响是非常重要的。

2
估计具有独立变量的标准偏差缩放的速率
我有在我以正态分布变量的测量实验,YYY Y∼N(μ,σ)Y∼N(μ,σ)Y \sim N(\mu,\sigma) 但是,先前的实验提供了一些证据,表明标准偏差是自变量的仿射函数,即Xσσ\sigmaXXX σ=a|X|+bσ=a|X|+b\sigma = a|X| + b Y∼N(μ,a|X|+b)Y∼N(μ,a|X|+b)Y \sim N(\mu,a|X| + b) 我想估计参数和通过取样在的多个值。此外,由于实验的限制,我只能采集有限数量(大约30-40)的样本,并且出于与实验无关的原因,我更愿意以X的多个值进行采样。给定这些约束,可以使用哪些方法来估计a和b?b Y XaaabbbYYYXXXYYYXXXaaabbb 实验说明 如果您对我为什么要问上述问题感兴趣,这是额外的信息。我的实验测量听觉和视觉空间知觉。我有一个实验设置,其中我可以显示来自不同位置X的听觉或视觉目标XXX,并且被摄对象指示目标Y的感知位置YYY。随着偏心率的增加(即| X |增大|X||X||X|),视觉*和听觉都变得不太精确,我在上面将其建模为σσ\sigma。最终,我想估计aaa和bbb对于视觉和听觉来说,所以我知道在空间中一系列位置上每种感觉的精度。这些估计值将用于预测同时显示的视觉和听觉目标的相对权重(类似于此处提出的多感官融合理论:http://www.ncbi.nlm.nih.gov/pubmed/12868643)。 *我知道,当比较中央凹与中央凹空间时,该模型的视觉不准确,但是我的测量仅限于中央凹空间,这是一个不错的近似值。


3
数据挖掘者实验设计课程
我是从事数据挖掘的计算机科学家。可以肯定地说,计算机科学家在进行系统的实验设计和评估方面相当差劲-使用p值和置信度估计被认为是高级的:)。 我想知道是否有好的课程/材料可以教计算机科学家有关好的实验设计的知识。为了更加具体,我将添加以下信息: 本课程应针对可以假定对概率有合理理解但统计学背景有限的研究生。 本课程应侧重于“不受控制的非自然环境”中的实验设计:换句话说,既没有潜在的物理基础事实,也没有控制数据收集过程的方式(与人类受试者一样)。当然,一门好的课程将侧重于基本原理,但是它应该以一种重要的方式来应对这种情况。 计算元素将是奖励,但不是强制性的。我们处理大量数据,但可以根据需要自己解决计算问题。

2
为一个说能影响骰子的通灵设计测试
假设我有一个朋友(我们称他为“乔治”),他说他可以用自己的思想来控制骰子的掷骰(即,使骰子更可能落在他正在考虑的特定数字上)。 我如何设计科学严谨的测试来确定他是否真的可以做到这一点?(当然,我真的不认为他可以,但是我希望他在测试开始之前就同意Amazing Randi风格的测试细节。)我想减少(很有可能)发布测试后的借口他会想出的。 这是我到目前为止的内容: 确定掷骰子的物理方法(骰子,振动杯,着陆面等) 定义一个“测试会话”,由X卷骰子组成。这个大小必须足够小,可以一次坐下,但是要足够大(可以确定)(经过分析),在95%-99%的置信度内骰子是公平的,还是偏向一方的 在所选骰子上运行Y次会话(不受George的影响),以此作为“对照”,以确保骰子自身显示“公平”结果 运行ž会议与乔治。在每次练习之前,请滚动一个单独的骰子以确定在整个会话期间George将“专注于”哪个数字。 编译并分析结果。 乔治为他的惨淡表现做了一些借口。 所以我对您的问题: 我的整体方法是否有缺陷或问题?乔治可能会反对吗? 我应该使用D6吗?还是D20?有关系吗?具有更多面的模具是否需要更多的轧辊才能产生类似的可信结果?还是相反?出于实际考虑,我宁愿少卷也不要多卷:) X,Y和Z的合理值是多少?它们并非完全无关。如果我选择的X值仅允许一次会话具有95%的置信度,那么即使没有George的影响,每20个会话中有1个可能“失败” 如何为单个会话定义“成功”或“失败”?(我确实找到了这个问题涉及卡方检验的细节,所以我认为这是我的评估方法,但是合理的置信度阈值是多少?) 如何为整体测试定义“成功”或“失败”?乔治可能会凭借一次偶然的机会“赢得”单个比赛,但是要通过整个测试,他必须通过多少Z个比赛? 如果有什么不同,我可能会在MS Excel电子表格中分析这些结果。

5
有关如何计划研究的参考
在关于统计的平均(中位数?)对话中,您经常会发现自己正在讨论分析这种或那种数据的这种或那种方法。以我的经验,经常忽略对统计分析有特殊想法的仔细研究设计(从事生物学/生态学工作,这似乎很普遍)。统计人员经常发现自己陷入僵局,收集的数据不足(或完全错误)。用罗纳德·费舍尔(Ronald Fisher)来解释,他们被迫对数据进行事后检验,这往往导致结论很弱,即使有的话。 我想知道您使用哪些参考来构建成功的研究设计,最好是用于帮助您避免上述陷阱的多种方法(例如t检验,GLM,GAM,排序技术...)。

3
应该仅对训练数据(或所有数据)执行特征选择吗?
应该仅对训练数据(或所有数据)执行特征选择吗?我经历了一些讨论和论文,例如Guyon(2003)以及Singhi and Liu(2006),但仍然不确定正确的答案。 我的实验设置如下: 数据集:50位健康对照者和50位疾病患者(cca 200功能可能与疾病预测相关)。 任务是根据可用功能诊断疾病。 我要做的是 取整个数据集并执行特征选择(FS)。我仅保留选定的功能以进行进一步处理 拆分以测试和训练,使用火车数据和所选功能进行火车分类。然后,将分类器应用于测试数据(再次仅使用所选功能)。使用留一法验证。 获得分类精度 平均:重复1)-3)N次。(100)。N=50N=50N=50 我同意在整个数据集上进行FS会带来一些偏差,但是我认为在平均过程中它被“平均”了(步骤4)。那是对的吗?(精度方差)&lt;2%&lt;2%<2\% 1 Guyon,I.(2003),“变量和特征选择简介”,《机器学习研究杂志》,第1卷。3,第1157-1182页 2 Singhi,SK和Liu,H.(2006)“用于分类学习的特征子集选择偏差”,进行ICML '06的第23届国际机器学习会议论文集,第849-856页

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
变量匹配和统计控制等方法之间的联系是什么?
您经常会在研究文章中看到研究人员已经控制了某些变量。这可以通过诸如匹配,阻止等方法来完成。 但是我一直认为,控制变量是通过测量几个可能具有影响力的变量并对其进行一些统计分析而在统计上完成的,这可以在真实和准实验中完成。因此,例如,您将进行一项调查或其他测试,在其中您将测量自变量和一些可能混淆的变量并进行一些分析。 在准实验中可以控制变量吗? 变量匹配和统计控制等方法之间的联系是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.