Questions tagged «goodness-of-fit»

拟合优度检验表明,假设随机样本来自特定分布是否合理。

3
“反转”的夏皮罗-威尔克
根据维基百科,Sharipo-Wilk检验测试零假设()“总体呈正态分布”。H0H0H_0 我正在寻找类似的正态性检验,其 “总体不是正态分布”。H0H0H_0 具有这样的试验中,我要计算一个 -值拒绝ħ 0在显着性水平α IFF p &lt; α ; 证明我的人口呈正态分布。pppH0H0H_0αα\alphap &lt; αp&lt;αp < \alpha 请注意,使用Sharipo-Wilk检验并接受 iff p &gt; α是不正确的方法,因为这从字面上意味着“我们没有足够的证据证明H0不成立”。H0H0H_0p &gt; αp&gt;αp > \alpha 相关线程-p -value的含义ppp,正常性测试没用吗?,但看不到我的问题的解决方案。 问题:我应该使用哪种测试?它在R中实现吗?

5
我可以对偏态正常数据进行假设检验吗?
我有一个数据收集,本来以为是正态分布的。然后我实际上查看了一下,意识到不是,主要是因为数据是歪斜的,并且我还进行了shapiro-wilks测试。 我仍然想使用统计方法对其进行分析,因此我想对偏态正态性进行假设检验。 所以我想知道是否有一种方法可以测试偏斜正态性,如果可能的话,还有一个库可以为我做测试。

2
拟合优度检验:关于安德森–达林检验和克拉梅尔–冯·米塞斯准则的问题
当我参加安德森–达林(Anderson-Darling)测试和克拉姆-冯·米塞斯(Cramér-vonMises)准则时,我正在阅读网页上的拟合优度测试。 到目前为止,我明白了。似乎仅基于不同的加权函数,安德森-达林检验和克拉姆-冯·米塞斯准则相似。此外,还有一种名为Watson检验的Cramér–von Mises准则的变体。www 基本上我有两个问题 关于这两种方法的Google结果并不多。他们仍然是最先进的吗?或已经被一些更好的方法所取代? 令人惊讶的是,根据有关Shapiro-Wilk,Kolmogorov-Smirnov,Lilliefors和Anderson-Darling检验的功率比较的这篇论文,AD的表现相当不错。总是比Lilliefors和KS更好,并且非常接近SW测试,后者是专为正态分布而设计的。 这种测试的置信区间是多少? 对于AD,CM和Watson测试,我看到了在Wiki页面上定义的测试统计信息变量,但没有找到置信区间。 对于KS测试而言,事情变得更加简单:在Wiki页面上,置信区间由定义,该值由的累积分布函数定义。KαKαK_\alphaKKK

3
如何可视化贝叶斯拟合优度进行逻辑回归
对于贝叶斯逻辑回归问题,我创建了后验预测分布。我从预测分布中进行采样,对于每个观测值,我都会收到数千个(0,1)的采样。可视化拟合优度并不有趣,例如: 此图显示了1万个样本+观察到的基准点(左侧的一条可以画出一条红线:是的,是观察值)。问题在于该图很难提供信息,我将使用其中的23个,每个数据点一个。 是否有更好的方法可视化23个数据点以及后面的样本。 另一尝试: 基于纸张的另一种尝试这里

3
如何评估特定非线性模型的拟合优度?[关闭]
很难说出这里的要求。这个问题是模棱两可,含糊,不完整,过于宽泛或夸张的,不能以目前的形式合理地回答。如需帮助澄清此问题以便可以重新打开, 请访问帮助中心。 7年前关闭。 我有一个非线性模型,其中是标准正态分布的cdf,f是非线性的(请参见下文)。在使用最大似然估计找到之后,我想用参数测试该模型与我的数据的拟合优度。什么是适当的测试?我想使用此测试将不良拟合标记为不良,并确定是否应收集更多数据。Φ 一个(X 1,ÿ 1),(X 2,ÿ 2),... ,(X Ñ,ÿ Ñ)一ÿ= Φ (f(x ,a ))+ εy=Φ(f(x,a))+εy=\Phi(f(x,a)) + \varepsilonΦΦ\Phi一个aa(x1个,ÿ1个),(X2,ÿ2),... ,(xñ,ÿñ)(x1,y1),(x2,y2),…,(xn,yn)(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)一个aa 我研究了使用偏差的方法,该方法将这个模型与饱和模型进行比较,并使用分布对其适合性进行了相应的检验。这样合适吗?我所阅读的关于偏差的大部分内容都将其应用于GLM,而我所没有的。如果偏差测试是适当的,则需要满足哪些假设才能使测试有效?χ2n − 1χn−12\chi^2_{n-1} 更新:对于,有所帮助。 X&gt;1,一&gt;0f=x−1ax2+1√f=x−1ax2+1f = \frac{x-1}{a\sqrt{x^2+1}}x&gt;1,a&gt;0x&gt;1,a&gt;0x>1,a>0


1
如何在一幅图中绘制拟合的伽玛分布图和实际图?
加载所需的包。 library(ggplot2) library(MASS) 生成10,000个适合伽玛分布的数字。 x &lt;- round(rgamma(100000,shape = 2,rate = 0.2),1) x &lt;- x[which(x&gt;0)] 假设我们不知道x符合哪个分布,则绘制概率密度函数。 t1 &lt;- as.data.frame(table(x)) names(t1) &lt;- c("x","y") t1 &lt;- transform(t1,x=as.numeric(as.character(x))) t1$y &lt;- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y = y)) + theme_classic() 从图中可以看出,x的分布与伽马分布非常相似,因此fitdistr()在包中使用它MASS可以获取形状和伽马分布速率的参数。 fitdistr(x,"gamma") ## output ## shape rate ## 2.0108224880 0.2011198260 ## (0.0083543575) …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
在R中的逻辑回归模型上缺乏拟合度时,如何计算Pearson的检验统计量?
对于R中的逻辑回归模型(使用函数进行拟合),获得似然比(aka偏差)统计和不拟合(或拟合优)检验非常简单。容易使某些单元格计数低到足以使测试不可靠的程度。验证似然比检验是否缺乏拟合的可靠性的一种方法是将其检验统计量和P值与Pearson的卡方检验(或)缺乏拟合的检验进行比较。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 该glm对象及其summary()方法均未报告缺少拟合的Pearson卡方检验的检验统计量。在搜索中,我唯一想到的就是chisq.test()功能(在stats包装中):其文档说“ chisq.test执行卡方列联表测试和拟合优度测试”。但是,该文档缺乏有关如何执行此类测试的信息: 如果x是具有一行或一列的矩阵,或者如果x是向量y且未给出,则执行拟合优度检验(x被视为一维列联表)。的条目x必须是非负整数。在这种情况下,检验的假设是总体概率是否等于中的概率p,如果p未给出,则全部等于。 我猜想您可以y将glm对象的组件用作的x参数chisq.test。但是,您不能fitted.values将glm对象的组件用作的p参数chisq.test,因为会出现错误:“ probabilities must sum to 1.” 如何(在R中)至少可以计算出缺乏拟合的Pearson测试统计量,而不必手动执行这些步骤?χ2χ2\chi^2

2
如何评估适应功能的优劣
尽管我对分类和回归有一定的了解,但我还是生存分析的新手。 对于回归,我们具有MSE和R平方统计量。但是,除了某种图形化的图(KM曲线),我们如何说生存模型A优于生存模型B? 如果可能的话,请举例说明差异(例如R中的rpart包)。您如何证明一棵CART生存树比另一棵CART生存树好?可以使用哪些指标?

3
统计检验以查看关系是线性还是非线性
我有一个示例数据集,如下所示: Volume &lt;- seq(1,20,0.1) var1 &lt;- 100 x2 &lt;- 1000000 x3 &lt;- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power &lt;- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) 从图中可以看出,在“体积”和“功率”的特定范围之间,关系是线性的,然后,当“体积”变得相对小时,关系变为非线性。有统计检验可以说明这一点吗? 关于对《任择议定书》的答复中显示的一些建议: 此处显示的示例只是一个示例,尽管噪声较大,但我拥有的数据集看起来与此处看到的关系相似。到目前为止,我进行的分析表明,当我分析特定液体的体积时,当体积较小时,信号的功率会急剧增加。因此,可以说我只有一个音量在15到20之间的环境,几乎就像线性关系。但是,通过增加点的范围(即具有较小的体积),我们看到该关系完全不是线性的。我现在正在寻找有关如何统计显示这一点的统计建议。希望这是有道理的。


2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.