Questions tagged «assumptions»

指统计程序产生有效估计和/或推断的条件。例如,许多统计技术都要求假设数据是以某种方式随机抽样的。有关估计量的理论结果通常需要对数据生成机制进行假设。


8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

10
t检验有效需要最小样本量吗?
我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量? 该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。

3
为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?
我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。 但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。 我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。 当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?

3
方差分析假设正态性/残差的正态分布
ANOVA上的Wikipedia页面列出了三个假设,即: 案例独立性–这是简化统计分析模型的假设。 正态性–残差的分布是正态的。 方差的均等(或“同质”),称为均方差... 这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。 弹出几个问题: 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))? 如果没有,应该采用哪种假设?一?都? 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?

10
为什么假定生存时间呈指数分布?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说: ...如果已知生存时间呈指数分布,则观察生存时间的概率... 为什么假定生存时间呈指数分布?对我来说似乎很不自然。 为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)? 如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?

2
解释残差与拟合值的关系图,以验证线性模型的假设
考虑下Faraway的带有R的线性模型的图形(2005年,第59页)。 第一个图似乎表明残差和拟合值不相关,因为它们应该在具有正态分布误差的均线线性模型中。因此,第二和第三幅图似乎表明了残差和拟合值之间的相关性,提出了不同的模型。 但是,正如Faraway所述,为什么第二个图建议一个异方差线性模型,而第三个图建议一个非线性模型呢? 第二个图似乎表明残差的绝对值与拟合值强烈正相关,而在第三个图中没有明显的趋势。因此,从理论上讲,如果存在具有正态分布误差的异方差线性模型, 肺心病(ē,y^)=⎡⎣⎢⎢1个⋮1个⋯⋱⋯1个⋮1个⎤⎦⎥⎥肺心病(Ë,ÿ^)=[1个⋯1个⋮⋱⋮1个⋯1个] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (其中左侧的表达式是残差和拟合值之间的方差-协方差矩阵),这可以解释为什么第二和第三曲线与Faraway的解释一致。 但是是这样吗?如果不是,那么法拉威对第二和第三情节的解释又如何呢?另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

2
50%的置信区间是否比95%的置信区间更可靠地估计?
我的问题来自于安德鲁·盖尔曼(Andrew Gelman)的博客文章中的这一评论,他在文章中主张使用50%的置信区间代替95%的置信区间,尽管并不是以更可靠的估计为依据: 我更喜欢50%到95%的间隔,原因有3个: 计算稳定性 更直观的评估(50%的间隔应包含真实值的一半), 从某种意义上说,最好是了解参数和预测值的位置,而不要尝试不切实际的接近确定性。 评论者的想法似乎是,如果置信区间为95%,则置信区间的基础假设的问题将比置信区间为50%的影响更大。但是,他并没有真正解释原因。 [...]随着间隔的增加,总体上,您对模型的细节或假设变得更加敏感。例如,您永远不会相信自己已经正确识别了99.9995%的间隔。至少那是我的直觉。如果是正确的话,它认为应该比95%更好地估计50%。还是“更可靠”地估算,因为它对有关噪声的假设不太敏感? 是真的吗 为什么/为什么不呢?

2
负二项式回归的假设是什么?
我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同? 我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。 谢谢您的帮助!!

1
当不满足假设时,回归模型有多不正确?
在拟合回归模型时,如果不满足输出的假设,将会发生什么,特别是: 如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。 如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。 如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办? 我知道没有硬的黑白划分,0.94是正确的,而0.95是错误的,在这个问题上,我想知道: 未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用? 偏差在多大程度上可以接受,或者完全可以接受? 当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?

3
“独立观察”是什么意思?
我试图理解独立观察的假设意味着什么。一些定义是: “只有当两个事件才是独立的。” (统计术语词典)P(一个∩ b )= P(一)* P(b )P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) “一个事件的发生不会改变另一个事件的可能性”(维基百科)。 “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。 经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。 那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?) 如果我不进行测量 gender , 为什么观测结果是独立的teacher_id?它们不是以相同的方式影响观察结果吗? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

5
违反线性回归的同调假设的危险是什么?
例如,考虑ChickWeightR中的数据集。方差明显随时间增长,因此,如果我使用简单的线性回归,例如: m <- lm(weight ~ Time*Diet, data=ChickWeight) 我的问题: 该模型的哪些方面值得怀疑? 问题是否仅限于在Time范围外推断? 线性回归对这种假设的违反有多大的容忍度(即必须引起异方差才能引起问题)?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.