Questions tagged «goodness-of-fit»

拟合优度检验表明,假设随机样本来自特定分布是否合理。

1
进行单尾Kolmogorov-Smirnov测试是否有意义?
进行单尾KS测试是否有意义并且可行?这样的检验的原假设是什么?还是KS测试天生就是两尾测试? 我将从一个有助于理解D分布的答案中受益(我正在研究Massey于1951年发表的论文,并发现描述具有挑战性,例如和是差异的最小和最小) CDF的差异的非绝对值是多少?)。 d -d+D+D^{+}d-D−D^{-} 跟进问题:如何获得和?我遇到的许多出版物都是表值,而不是,和 CDF 。D + D − D n D + D −pppd+D+D^{+}d-D−D^{-}dñDnD_{n}d+D+D^{+}d-D−D^{-} 更新:我刚刚发现了相关的问题单边Kolmogorov-Smirnov检验中的原假设是什么?,在撰写此文章之前,我在初次扫描时就错过了。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
如何测试分配是否遵循幂定律?
我有关于多少用户发布多少问题的数据。例如, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... 这意味着2个用户每个发布了100个问题,9个用户每个发布了10个问题,依此类推。那么,如何确定UserCount, QuestionCount分布是否遵循幂律? 我找到了poweRlaw软件包。但是,我只能传递一组数字来进行评估。(此软件包中提供的示例是单词频率。)那么,如何使用此软件包?还是我有什么问题?我也有每个用户的问题计数的数据,即[100, 100, 10, 10, 10 ... ]。如果我将此数据传递给程序包,我将得到什么?

1
评估逻辑回归模型
我一直在研究逻辑模型,但在评估结果时遇到了一些困难。我的模型是二项式logit。我的解释变量是:具有15个级别的分类变量,二分变量和2个连续变量。我的N大于8000。 我正在尝试为公司的投资决策建模。因变量是投资(是/否),这15个级别变量是经理报告的不同投资障碍。其余变量是销售,信用和已用容量的控件。 下面是我的结果,使用rmsR中的包。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 Coef S.E. Wald …

2
如何测试数据样本是否符合伽玛分布族?
我有一个从连续随机变量X生成的数据样本。从我使用R绘制的直方图中,我想也许X的分布服从一定的Gamma分布。但是我不知道这种伽马分布的确切参数。 我的问题是如何测试X的分布是否属于Gamma分布族?拟合检验有一些好处,例如Kolmogorov-Smirnov检验,Anderson-Darling检验等,但是使用这些检验的限制之一是应事先知道理论分布的参数。谁能告诉我如何解决这个问题?

2
评估逻辑回归模型
这个问题源于我对如何确定逻辑模型是否足够好的实际困惑。我有一些模型在成对变量两年后使用成对的个体项目状态。结果成功(1)或不成功(0)。我有在形成双时测量的自变量。我的目的是测试我假设会影响配对成功的变量是否对成功产生影响,并控制其他潜在影响。在模型中,关注变量很重要。 使用中的glm()函数估算模型R。为了评估模型的质量,我做了几件事:默认情况下glm()为您提供residual deviance,AIC和BIC。此外,我已经计算了模型的错误率并绘制了合并残差。 完整模型的残差,AIC和BIC小于我估计的其他模型(嵌套在完整模型中),这使我认为该模型比其他模型“更好”。 该模型的错误率相当低,恕我直言(如Gelman and Hill,2007,pp.99): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)约为20%。 到目前为止,一切都很好。但是,当我绘制合并的残差(再次遵循Gelman和Hill的建议)时,大部分合并箱位于95%CI之外: 该图使我认为该模型存在某些错误。那应该导致我放弃模型吗?我是否应该承认该模型是不完美的,但可以保留并解释感兴趣变量的影响?我开玩笑地依次排除了变量,并且进行了一些变换,但并没有真正改善合并残差图。 编辑: 目前,该模型具有十几个预测变量和5种交互作用。 这些对是相对“彼此”独立的,因为它们都是在短时间内形成的(但严格来说不是同时发生的),并且有很多项目(13k)和很多个人(19k) ),因此相当多的项目只能由一个人(大约2万对)加入。

5
如何证明Elo评分或Page排名对我的作品有意义?
我有一组球员。他们互相对抗(成对)。对玩家是随机选择的。在任何游戏中,一名玩家获胜,另一名玩家输。玩家彼此玩有限数量的游戏(有些玩家玩更多的游戏,有些玩的更少)。因此,我有数据(谁赢得了谁,赢得了多少次)。现在,我假设每个玩家的排名都决定了获胜的可能性。 我想检查一下这个假设是否真的是事实。当然,我可以使用Elo评分系统或PageRank算法来计算每个玩家的评分。但是,通过计算等级,我不能证明它们(等级)确实存在或没有任何意义。 换句话说,我想有一种方法来证明(或检查)球员确实有不同的优势。我该怎么做? 添加 更具体地说,我有8位玩家,只有18场比赛。因此,有很多对彼此不对战的玩家,并且有很多对彼此仅玩过一次的玩家。结果,我无法估计给定玩家对获胜的可能性。例如,我还看到有一个玩家在6场比赛中赢得了6次胜利。但这也许只是一个巧合。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

1
如何阅读R的nls的拟合优度?
我试图解释nls()的输出。我已经阅读了这篇文章,但我仍然不明白如何选择最合适的。根据我的拟合,我有两个输出: > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 120.1 on 5 degrees …

1
在原假设下,确定系数期望值
我对本文第一页底部 关于调整的声明感到好奇R2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). 文本指出: 调整的逻辑如下:在普通多元回归中,随机预测变量平均解释响应变化的比例1/(n–1)1/(n–1)1/(n – 1),因此mmm随机预测变量平均一起解释m/(n–1)m/(n–1)m/(n – 1)响应的变化;换句话说,R ^ 2的期望值R2R2R^2为E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)。将[ R2adjustedRadjusted2R^2_\mathrm{adjusted} ]公式应用于该值(所有预测变量都是随机的),得出R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0。” 对于R ^ 2_ \ mathrm {adjusted},这似乎是一个非常简单且可解释的动机R2adjustedRadjusted2R^2_\mathrm{adjusted}。但是,对于单个随机(即不相关)的预测变量,我无法得出E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1))的值。 有人可以在这里指出正确的方向吗?

1
R中具有回归样条的Logistic回归
我一直在根据英国颅脑损伤国家创伤数据库的回顾性数据开发逻辑回归模型。关键结果是30天死亡率(称为“生存”度量)。在以前的研究中,已公开证据表明对结果有重大影响的其他措施包括: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

4
拟合优度适用于非常大的样本量
我每天收集非常大的分类数据样本(> 1,000,000),并希望看到各天之间的数据看起来“明显”不同,以检测数据收集中的错误。 我认为使用拟合度测试(尤其是G检验)将非常适合(双关语)。预期分布由前一天的分布给出。 但是,由于我的样本量太大,该测试具有很高的功效,并且会散发出许多假阳性结果。就是说,即使是很小的每日波动也会产生接近零的p值。 我最终将测试统计量乘以某个常数(0.001),可以很好地解释以该速率采样数据。本文似乎同意这种方法。他们说: 卡方最可靠,样本约100至2500人 我正在寻找有关此的更多权威评论。在大型数据集上进行统计测试时,也可能有一些其他方法可以解决误报问题。

3
基于诊断指标( / AUC /精度/ RMSE等)的值,我的模型是否还好?
我已经安装好模型,并试图了解它是否有好处。我已经计算出推荐的指标进行评估( / AUC /准确性/预测误差等),但不知道如何解释它们。简而言之,如何根据指标判断我的模型是否良好?例如,为0.6是否足以让我继续进行推断或做出科学/商业决策?[R2R2R^2[R2R2R^2 这个问题是有意的,涵盖了会员经常遇到的各种情况;这样的问题可以作为此问题的副本来解决。欢迎进行修改以扩大范围,使其超出此处提到的指标,还有其他答案-尤其是那些提供有关其他类别指标的见解的答案。

2
Kolmogorov–Smirnov检验:随着样本量的增加,p值和ks检验的统计量减少
为什么p值和ks检验统计量会随着样本数量的增加而减少?以以下Python代码为例: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) 结果是: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19) 凭直觉,我理解随着n的增长,测试“更加确定”了两种分布是不同的。但是,如果样本量很大,那么在诸如此类的相似性测试(如安德森·达林检验)或t检验中有什么意义,因为在这种情况下,当n很大时,总会发现分布是“明显”不同!?现在我想知道p值的意义到底是什么。它在很大程度上取决于样本量...如果p> 0.05而您希望降低样本量,则只需获取更多数据即可。如果p <0.05且您希望它更高,则删除一些数据。 同样,如果两个分布相同,则ks检验统计量将为0,p值为1。但是在我的示例中,随着n的增加,ks检验统计量表明分布随时间变得越来越相似(减小)。 ,但根据p值,它们会随着时间变得越来越多(也有所减少)。

1
零膨胀泊松或零膨胀负二项式的“偏差”度量?
比例偏差定义为D = 2 *(饱和模型的对数似然度减去拟合模型的对数似然度),通常用作GLM模型中拟合优度的度量。解释的偏差百分比定义为[D(零模型)-D(拟合模型)] / D(零模型),有时也用作线性回归的R平方的GLM模拟。除了ZIP和ZINB分布不属于指数分布的事实外,我很难理解为什么零膨胀建模中未使用比例偏差和百分比偏差。谁能对此有所启发或提供有用的参考?提前致谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.