Questions tagged «heteroscedasticity»

沿着随机过程中某些连续体的非恒定方差。

1
MLE与拟合概率分布中的最小二乘
根据我读过的几篇论文,书籍和文章,给我的印象是,将概率分布拟合到一组数据上的推荐方法是使用最大似然估计(MLE)。但是,作为物理学家,一种更直观的方法是仅使用最小二乘法将模型的pdf与数据的经验pdf拟合。那么为什么MLE在拟合概率分布上比最小二乘更好?有人可以指出我要回答该问题的科学论文/书吗? 我的直觉是因为MLE没有假定噪声模型,而经验pdf中的“噪声”是异方差的,不是正常的。


2
残差异方差的度量
该维基百科链接列出了多种检测OLS残差异方差性的技术。我想了解哪种动手操作技术在检测受异方差影响的区域时更有效。 例如,在这里,OLS“残差vs拟合”图中的中心区域的方差比图中侧面的高(我并不完全确定事实,但出于问题考虑,我们假设是这种情况)。作为确认,查看QQ图中的错误标签,我们可以看到它们与残差图中心的错误标签匹配。 但是我们如何量化方差明显更高的残差区域呢?

2
如何在R中既没有正态又没有方差相等的数据上进行双向ANOVA?
目前,我正在研究硕士论文,并计划使用SigmaPlot运行统计数据。但是,在花了一些时间处理数据后,我得出的结论是SigmaPlot可能不适合我的问题(我可能会误解了),因此我在R中开始了首次尝试,但并没有因此而变得更加容易。 计划是根据我的数据运行一个简单的TWO-WAY-ANOVA,该结果来自3种不同的蛋白质和对此进行8种不同的处理,所以我的两个因素是蛋白质和处理。我同时使用 > shapiro.test(time) 和 > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) 在这两种情况下(也许并不奇怪),我最终都得到了非正态分布。 哪一个给我留下了第一个问题,即哪个检验用于方差相等。我想出了 > chisq.test(time) 结果是,我的数据也没有方差相等。 我尝试了不同的数据转换(对数,中心,标准化),所有这些都不能解决我的方差问题。 现在我不知所措,如何进行ANOVA来测试哪些蛋白质和哪些治疗方法彼此之间有显着差异。我发现了有关Kruskal-Walis-Test的一些信息,但仅出于一个因素(?)。我还发现了有关排名或randamization的内容,但还没有找到如何在R中实现这些技术的方法。 有人建议我该怎么办吗? 编辑:谢谢您的回答,我对阅读有点不知所措(似乎越来越多而不是更少),但是我当然会继续前进。 根据建议,这是我的数据示例(对于格式,我感到非常抱歉,我无法找到其他解决方案或放置文件的地方。对于这一切我仍然是陌生的。): protein treatment time A con 2329.0 A HY 1072.0 A CL1 4435.0 A CL2 2971.0 A CL1-HY sim 823.5 A CL2-HY sim 491.5 A CL1+HY mix 2510.5 A CL2+HY mix …

5
检查方差分析假设
几个月前,我在SO上的R中发布了一个有关均方差测试的问题,Ian Fellows回答说(我将他的回答解释得很宽松): 在测试模型拟合优度时,同方差测试不是一个好的工具。对于小样本,您没有足够的能力来检测偏离同方差,而对于大样本,您具有“足够的权力”,因此,您更有可能筛选甚至是琐碎的均等偏离。 他的好回答是我的耳光。每次运行ANOVA时,我都会检查正态性和均方差性假设。 您认为检查ANOVA假设时的最佳做法是什么?

3
预测异方差数据的方差
我正在尝试对异方差数据进行回归分析,以预测线性模型中的误差方差和均值。像这样: ÿ(x ,t )ξ(x ,t )ÿ¯(x ,t )σ(x ,t )= y¯(x ,t ) + ξ(x ,t ),〜ñ(0 ,σ(x ,t )),= y0+ a x + b t ,= σ0+ c x + dŤ 。y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 换句话说,数据包括在和各种值下重复测量。我假设这些测量值是“真实”平均值,它是和的线性函数,加性高斯噪声的标准偏差(或方差,我还没有决定)也线性地取决于。(我可以允许对和进行更复杂的依赖-线性形式没有很强的理论动机-但我不希望在现阶段使事情复杂化。)X 吨ˉ Ý(X ,吨)X …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Newey-West(1987)和Hansen-Hodrick(1980)的比较
问题:使用Newey-West(1987)和Hansen-Hodrick(1980)标准错误之间的主要区别和相似之处是什么?在哪些情况下应优先选择其中一种? 笔记: 我确实知道每个调整程序如何工作;但是,无论是在网上还是在我的教科书中,我还没有找到可以比较它们的文档。欢迎参考! Newey-West往往被用作“包罗万象”的HAC标准错误,而Hansen-Hodrick经常在数据点重叠的情况下出现(例如,请参见此问题或此问题)。因此,我的问题的一个重要方面是,关于Hansen-Hodrick的事情是否比Newey-West 更适合处理重叠数据?(毕竟,重叠的数据最终会导致与序列相关的错误术语,Newey-West也要处理。) 作为记录,我知道这个类似的问题,但是它提出的条件相对较差,被否决了,最终我所问的问题没有得到回答(仅与编程相关的部分得到了回答)。

2
方差不等的t检验中非整数自由度的解释
SPSS t检验程序在比较2个独立均值时报告2次分析,其中1次假设均等方差,1次假设均等方差。假设方差相等时的自由度(df)始终是整数值(等于n-2)。如果未假定等方差,则df为非整数(例如11.467),并且不接近n-2。我正在寻求对用于计算这些非整数df的逻辑和方法的解释。

2
为什么通过Bartlett检验诊断的球形度表示PCA不适当?
我了解Bartlett检验与确定您的样本是否来自方差相等的总体有关。 如果样本来自方差相等的总体,则我们无法拒绝检验的原假设,因此,主成分分析是不合适的。 我不确定这种情况(具有同方差数据集)的问题在哪里。拥有所有数据的基础分布都相同的数据集会出现什么问题?如果存在这种情况,我只是没什么大不了的。为什么这会使PCA不合适? 我似乎无法在网上找到任何好的信息。有人解释这一测试为何与PCA有关的经验吗?

1
自举标准误差和置信区间是否适合违反均等假设的回归?
如果在标准OLS回归中违反了两个假设(误差的正态分布,均方差),自举标准误差和置信区间是否是一种适当的替代方法,以获得关于回归系数的重要性的有意义的结果? 具有自举标准误差和置信区间的显着性测试是否仍可以“异方差”地“起作用”? 如果是,在这种情况下可以使用的适用置信区间(百分位数,BC,BCA)是多少? 最后,如果在这种情况下自举是合适的,那么需要阅读和引用哪些相关文献才能得出这个结论?任何提示将不胜感激!

1
在R中没有lm对象的情况下计算Newey-West标准误差
我昨天在StackOverflow上问了这个问题,并得到了答案,但我们同意,它似乎有点骇人听闻,并且也许有一种更好的方法来查看它。 问题:我想计算向量(在本例中为股票收益向量)的Newey-West(HAC)标准误差。该功能NeweyWest()在sandwich包这样做,但需要一个lm对象作为输入。Joris Meys提供的解决方案是将向量投影到1上,这会将我的向量转换为残差并馈入NeweyWest()。那是: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 均值的方差。 我应该这样吗?还是有一种方法可以更直接地做我想做的事情?谢谢!


1
条件同方差与异方差
摘自《计量经济学》,作者:Fumio Hayashi(第一章): 无条件同方性: 误差项E(εᵢ²)的第二矩在整个观测中都是恒定的 在所有观察结果中,函数形式E(εᵢ²| xi)是恒定的 有条件的同方性: 解除了误差项E(ε)²)的第二矩在整个观测值中恒定的限制 因此,条件二阶矩E(εᵢ²| xi)可能由于对xᵢ的依赖而在观测中有所不同。 所以,我的问题是: 有条件的同方性与异方性有何不同? 我的理解是,当第二个时刻的观测值不同时,存在异方差。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.