如何比较观察到的事件与预期的事件?


9

假设我有一个频率为4个可能的事件的样本:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

并且我具有发生事件的预期概率:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

如何比较观察值与期望值?测试我计算的概率是否是好的预测因子?

我想到了卡方检验,但是结果随样本大小变化(n = 18),我的意思是,如果将观察值乘以1342,并使用相同的方法,结果将有所不同。也许wilcox配对测试有效,但是您有何建议?

如果可以在R中建议,那会更好。

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Answers:


4

您提到如果将所有值乘以会得到不同的结果。这不是问题。您应该得到截然不同的结果。如果您掷硬币并且正面朝上,这说明的并不多。如果您将硬币次,并且每次都正面,则您将获得更多信息,表明该硬币不公平。13421342

通常,当您期望的出现次数在类别的很大一部分(例如至少)中很低(例如小于)时,您想使用测试的替代方法。一种可能是Fisher的精确测试,该测试在R中实现。您可以将测试视为Fisher精确测试的近似值,并且仅当更多期望计数较大时,该近似值才是好的。χ2520χ2


谢谢,哪一个更好:仅是费舍尔测试?还是带有p模拟值的Fisher检验?为什么?
胡安

仿真引入的误差可能很小,但对于较小的值则不必要。如果您有类别和对象,则可能的结果数为。如果按照计算机的标准,这个值很小(也许小于),那么我将使用精确的计算。如果精确的计算很慢,请测试模拟的误差,并查看它们对于速度提高是否可接受。kn(n+k1n)107
道格拉斯·扎里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.