Questions tagged «assumptions»

指统计程序产生有效估计和/或推断的条件。例如,许多统计技术都要求假设数据是以某种方式随机抽样的。有关估计量的理论结果通常需要对数据生成机制进行假设。

2
“无免费午餐定理”是否适用于一般统计检验?
我正在工作的一位女士要求我对某些数据进行单向方差分析。我回答说,这些数据是重复测量(时间序列)数据,并且我认为违反了独立性的假设。她回答说,我不必担心这些假设,只需进行测试即可,她会考虑到可能未满足这些假设。 在我看来,这似乎不合适。我进行了一些研究,发现David Robinson撰写的精彩博客文章说,K-means聚类不是免费的午餐,这使我接触了“免费午餐”定理。我看了看原始论文,然后看了一些后续内容,坦率地说,数学有点让我头疼。 根据大卫·罗宾逊(David Robinson)的说法,其要旨似乎是统计检验的力量来自其假设。他列举了两个很好的例子。当我浏览有关它的其他文章和博客文章时,似乎总是从监督学习或搜索的角度来引用它。 所以我的问题是,该定理是否普遍适用于统计检验?换句话说,可以说t检验或ANOVA的功效来自对假设的坚持,并引用了“免费午餐定理”吗? 我欠前老板一份关于我所做工作的最终文件,我想知道我是否可以参考“免费午餐定理”来说明您不能仅仅忽略统计检验的假设,并说您会考虑到这一点在评估结果时考虑。

2
正态分布的X和Y是否更有可能导致正态分布的残差?
这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。 我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。 我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?

2
方差-协方差矩阵解释
假设我们有一个线性模型,Model1并vcov(Model1)给出以下矩阵: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 对于此示例,此矩阵实际显示什么?我们可以为模型及其独立变量安全地做出哪些假设?

2
在广义线性模型中检查残差的正态性
本文使用广义线性模型(二项式和负二项式误差分布)来分析数据。但是,在方法的统计分析部分中,有以下语句: ...然后通过使用Logistic回归模型对状态数据进行建模,并使用广义线性模型(GLM)对觅食时间数据进行建模。使用具有对数链接函数的负二项式分布来对觅食时间数据进行建模(Welsh等人,1996),并通过检验残差来验证模型的适当性(McCullagh&Nelder 1989)。Shapiro–Wilk或Kolmogorov–Smirnov检验用于根据样本量检验正态性;在分析之前,对数据进行对数转换,以符合正态性。 如果他们假设二项式和负二项式误差分布,那么他们肯定不应该检查残差的正态性吗?

4
回归残差分布假设
为什么有必要将分布假设置于误差上,即 ,具有 ε 我〜Ñ(0 ,σ 2)。ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ϵ一世〜ñ(0 ,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) 为什么不写 ,与 ÿ 我〜Ñ(X β,σ 2),ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ÿ一世〜ñ(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) 其中在任一情况下。 我已经看到它强调指出分布假设是基于错误而不是数据,但没有解释。 ϵ一世= y一世- ÿ^ϵi=yi−y^\epsilon_i = y_i - \hat{y} 我不太了解这两种说法之间的区别。在某些地方,我看到分布假设被放置在数据上(贝叶斯照明。它似乎主要是),但是大多数情况下,假设被放置在错误上。 在建模时,为什么/应该选择一个假设还是另一个假设开始?

2
为什么有些人在原始数据上测试类似回归模型的假设,而另一些人在残差上测试它们呢?
我是实验心理学的博士生,我努力提高自己的技能和知识,以分析数据。 在我进入心理学的五年级之前,我一直认为类似回归的模型(例如ANOVA)假设以下内容: 数据的正态性 数据的方差同质性等等 我的本科课程使我相信这些假设与数据有关。但是,在我五年级的时候,我的一些讲师强调了这样一个事实,即假设是关于误差(由残差估计)的,而不是原始数据。 最近,我与一些同事谈论假设问题,他们也承认,他们发现只有在大学的最后几年才检查残差假设的重要性。 如果我了解得很好,类似回归的模型将对误差做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有人检查原始数据的假设?是否因为这样的检查程序近似于我们通过检查残差而获得的结果? 我会与一些比我和我的同事更准确的知识的人就这个问题进行讨论。我在此先感谢您的回答。

2
未配对的t检验需要哪些正态假设?他们什么时候见面?
如果我们希望进行配对的t检验,则要求(如果我理解正确的话)是匹配的度量单位之间的平均差应正态分布。 在成对的t检验中,即铰接式(AFAIK)要求匹配的度量单位之间的差异将呈正态分布(即使两个比较组中每个组的分布均不呈正态)。 但是,在不成对的t检验中,我们不能谈论匹配的单位之间的差异,因此我们要求两组的观察值是正常的,以使它们的均值差异是正常的。这引出我的问题: 两个非正态分布是否有可能使它们的均值之差呈正态分布?(因此,据我所知,满足了我们对它们执行未配对t检验的必要要求)。 更新:(谢谢大家的回答)我看到我们正在寻找的一般规则确实是均值的差将是正常的,由于CLT,这似乎是一个很好的假设(在足够大的n下)。对于这对于不成对的t检验如何起作用,这对我来说是令人惊奇的(不足为奇,仅是令人惊奇的),但对于单样本t检验,效果却不佳。这是一些R代码来说明: n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2))) # hist(diffs) P <- numeric(R) MEAN <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) y2 <- runif(n2, 0, …

1
条件同方差与异方差
摘自《计量经济学》,作者:Fumio Hayashi(第一章): 无条件同方性: 误差项E(εᵢ²)的第二矩在整个观测中都是恒定的 在所有观察结果中,函数形式E(εᵢ²| xi)是恒定的 有条件的同方性: 解除了误差项E(ε)²)的第二矩在整个观测值中恒定的限制 因此,条件二阶矩E(εᵢ²| xi)可能由于对xᵢ的依赖而在观测中有所不同。 所以,我的问题是: 有条件的同方性与异方性有何不同? 我的理解是,当第二个时刻的观测值不同时,存在异方差。

1
违反正常程度的一个好的指标是什么?该指标上可以附加哪些描述性标签?
内容: 在上一个问题中,@ Robbie在约600个案例中的一项研究中询问为什么正态性检验表明存在显着的非正态性,而这些图却表明正态分布。一些人指出,正态性的显着性检验不是很有用。对于较小的样本,此类测试没有足够的能力来检测轻微的正常违反情况,而对于较大的样本,它们将检测到足够小的无关紧要的正常违反情况。 在我看来,这个问题类似于关于显着性检验和效应大小的辩论。如果仅关注显着性测试,则在有大量样本时,您可以检测到与实际目的无关的微小影响,而对于小型样本,您将没有足够的能力。 在某些情况下,我什至看到教科书建议人们可以拥有一个“太大”的样本,因为微小的影响在统计上很重要。 在意义测试和效果大小的上下文中,一个简单的解决方案是专注于估计感兴趣的效果的大小,而不是迷恋是否存在效果的二元决策规则。对效应大小的置信区间就是这样一种方法,或者您可以采用某种形式的贝叶斯方法。此外,各种研究领域都建立了关于给定效果大小在实际意义上意味着好坏的想法,应用启发式标签,例如“小”,“中”和“大效果”。这也导致了明智的建议,即最大化样本大小,以便在估计给定感兴趣参数时最大化准确性。 这使我想知道,为什么在假设检验,尤其是正态检验方面,没有更广泛地采用基于效果大小的置信区间的类似方法。 题: 数据违反常态程度的最佳单一指标是什么? 还是谈论多个违反正常性的指标(例如,偏度,峰度,离群率)是更好的选择吗? 如何计算指数的置信区间(或使用贝叶斯方法)? 您可以为该索引上的点分配什么样的口头标签,以表明违反正常性的程度(例如,轻度,中度,强烈,极端等)?这样的标签的目的可能是帮助经验不足的分析人员在违反正常性问题时训练他们的直觉。

3
因子分析的假设是什么?
我想检查我是否真的了解[经典,线性] 因子分析(FA),尤其是在FA之前(以及之后)所做的假设。 某些数据应首先进行关联,并且它们之间可能存在线性关系。在进行因子分析之后,数据是正态分布的(每对的双变量分布),并且因子之间(通用变量和特异性变量之间)没有相关性,一个因子的变量与其他因子的变量之间也没有相关性。 这是正确的吗?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
线性回归中的正态性假设
作为线性回归的假设,误差分布的正态性有时被错误地“扩展”或解释为需要y或x的正态性。 是否可以构造一个场景/数据集,其中X和Y是非正态的,但误差项是,因此获得的线性回归估计值是有效的?

3
线性回归中的线性假设仅仅是的定义吗?
我正在修改线性回归。 格林的教科书指出: 现在,在线性回归模型上当然会有其他假设,例如。该假设与线性假设(实际上定义为)相结合,将结构置于模型上。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon 但是,线性假设本身不会在我们的模型中添加任何结构,因为可以是完全任意的。对于任何变量,无论两者之间的关系如何,我们都可以定义一个使得线性假设成立。因此,线性“假设”的确可以称为一个定义的,而不是一个假设。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilon εϵϵ\epsilon 因此我想知道: 格林草率吗?他实际上应该写出:吗?这是一个“线性假设”,实际上将结构放在模型上。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta 还是我必须接受线性假设不将结构放在模型上而是仅定义一个,而其他假设将使用定义将结构放在模型上吗?εϵϵ\epsilonϵϵ\epsilon 编辑:由于其他假设似乎有些混乱,因此让我在此处添加全套假设: 这摘自Greene,《计量经济学分析》,第7版。p。16。

2
回归:为什么要测试整体残差的正态性,而不是以为条件的残差?
我了解到,在线性回归中,误差假定为正态分布,并取决于y的预测值。然后,我们将残差视为错误的一种替代。 通常建议生成如下输出:。但是,我不明白获取每个数据点的残差并将其混和到一个图中的意义是什么。 我知道我们不太可能有足够的数据点来正确评估在每个y预测值处是否都具有正常残差。 但是,是否不是我们的正常残差是否整体上是一个单独的残差,以及与每个y预测值处的正常残差的模型假设没有明确关系的问题?我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.