Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

12
为什么95%的置信区间(CI)并不意味着95%的机会包含平均值?
似乎在这里通过各种相关问题,我们达成共识,即所谓的“ 95%置信区间”中的“ 95%”部分是指这样的事实:如果我们要多次精确地重复采样和CI计算过程, ,因此计算得出的95%的配置项将包含总体平均值。这也似乎是共识,这一定义确实不允许人们从单个95%CI得出结论,即平均值有95%的概率落在CI内。但是,我不理解前者在暗示许多95%的配置项包含总体均值的情况下并不暗示后者,就我们的不确定性而言(关于我们实际计算的配置项是否包含总体)是不是)强迫我们使用想象中的案例的基准利率(95%)作为我们对实际案例包含CI的概率的估计? 我见过一些文章按照“实际计算的CI包含总体均值或不包含总体均值,因此其概率为1或0”的论点进行争论,但这似乎暗示了对概率依赖性的奇怪定义在未知状态下(例如,一个朋友扔公平的硬币,隐藏结果,我被禁止说有50%的可能性是正面的)。 我当然错了,但是我看不出逻辑哪里出错了...

8
在“大数据”时代采样是否有意义?
或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。 我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:) 所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗? 即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭? 还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:) 注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。


5
当样本“是”总体时的统计推断
想象一下,您必须报告每年参加给定考试的候选人人数。例如,由于目标人群的特殊性,很难推断观察到的成功百分比,例如,在更广泛的人群中。因此,您可能会认为这些数据代表了整个人口。 测试结果是否表明男性和女性的比例确实正确?由于您考虑的是总体(而不是样本),因此将观察到的比例与理论比例进行比较的测试是否看起来是正确的?

4
如何使用常规编程语言从均值和方差已知的正态分布中采样?
我从来没有上过统计学课程,所以我希望在正确的位置提问。 假设我仅具有两个数据描述正态分布:平均值和方差σ 2。我想使用计算机从此分布中随机抽样,以便我尊重这两个统计数据。μμ\muσ2σ2\sigma^2 很明显,我可以通过简单地将0左右归一化来处理均值:在输出样本之前,只需将添加到每个样本即可。但我不明白如何以编程方式生成样本尊重σ 2。μμ\muσ2σ2\sigma^2 我的程序将使用传统的编程语言。我无权访问任何统计数据包。

5
为什么增加样本大小会降低(抽样)方差?
大图: 我试图了解增加样本数量如何增加实验的功效。我的讲师的幻灯片用2个正态分布的图片对此进行了解释,一个是零假设,一个是替代假设,它们之间的决策阈值c。他们认为,增加样本量将降低方差,从而导致较高的峰度,从而减少曲线下的共享区域,从而降低II型错误的可能性。 小图: 我不知道更大的样本量如何降低方差。 我假设您只是计算样本方差并将其用作正态分布中的参数。 我试过了: 谷歌搜索,但大多数被接受的答案有0赞或仅仅是示例 思考:根据大数定律,每个值最终应根据我们假设的正态分布稳定在其可能值附近。因此,方差应该收敛到我们假设的正态分布的方差。但是,该正态分布的方差是多少,它是一个最小值吗?也就是说,我们可以确定样本方差减小到那个值吗?



5
教学抽样分布的策略
tl; dr版本 您采用了哪些成功的策略在入门级本科水平上教授(例如,样本均值的)样本分布? 背景 9月,我将使用David Moore 撰写的《统计基础知识》为二年级社会科学(主要是政治科学和社会学)课程的学生开设统计学入门课程。这是我第五次教这门课,我一直遇到的一个问题是,学生们确实在抽样分配的概念上挣扎。它作为推理的背景进行了介绍,并基本介绍了几经打initial后他们似乎没有遇到麻烦的概率(而从根本上讲,我的意思是基本-毕竟,这些学生中的许多人已经被自动选入了特定的课程流,因为他们试图避免甚至带有“数学”含糊暗示的任何事物。我猜想可能有60%的人对课程没有一点点的了解,大约25%的人了解原理,但不了解与其他概念的联系,其余15%的人完全理解。 主要问题 学生似乎遇到的麻烦是应用程序。除了说他们只是不明白之外,很难解释确切的问题是什么。从上学期进行的一项民意测验和考试答复中,我认为部分困难是两个相关且相似的发音短语(采样分布和样本分布)之间的混淆,因此我没有使用“样本分布”一词虽然如此,但可以肯定的是,虽然一开始令人困惑,但只需一点点努力就可以轻松解决它,并且无论如何也无法解释抽样分布概念的普遍困惑。 (我意识到这可能是我本人和我的教!在这里!但是,我认为忽略不合理的可能性是合理的做法,因为有些学生确实做到了,而且总体上每个人似乎都做得不错...) 我尝试过的 我不得不与我们系的本科生管理者争论,在计算机实验室中引入强制性课程,以为反复演示可能会有所帮助(在我开始教这门课程之前,不涉及计算)。虽然我认为这有助于总体上理解课程材料,但我认为这对特定主题没有帮助。 我曾经有过一个想法,就是根本不教它或不给它太多分量,这是某些人(例如安德鲁·盖尔曼)所主张的。我觉得这不是特别令人满意,因为它有教给最低公分母的感觉,更重要的是,拒绝坚强而又有上进心的学生,他们想通过真正了解重要概念的工作原理(不仅是抽样分布!)来学习更多有关统计应用的知识。 )。另一方面,中位学生似乎确实掌握了例如p值,因此也许他们根本不需要了解采样分布。 问题 您采用什么策略教授抽样分布?我知道有可用的材料和讨论(例如,这里和这里以及打开PDF文件的本文),但我只是想知道我是否可以得到一些对人有用的具体示例(或者我猜什至什么都不有用)因此我不会尝试!)。现在,正如我计划9月份的课程那样,我现在的计划是遵循Gelman的建议并“强调”采样分布。我会教书,但我会向学生保证,这只是一种仅供参考的主题,不会出现在考试中(除非作为奖励问题?!)。但是,我真的很想听听人们使用的其他方法。

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

7
统计谬误的名称是什么,以前的硬币抛售的结果会影响有关后续硬币抛售的信念?
众所周知,如果掷硬币时正面和反面都有相等的机会落地,那么如果您多次抛硬币,一半的时间会正面,一半的时间会反面。 在与朋友讨论这个问题时,他们说,如果您将硬币抛掷1000次,并说头100次抛硬币落在正面,那么抛尾的机会就增加了(逻辑是,如果硬币没有偏斜,那么当您将其翻转1000次时,您将大约拥有500个头和500个尾巴,因此必须更有可能出现尾巴)。 我知道这是一个谬论,因为过去的结果不会影响未来的结果。那个谬论有名字吗?另外,对于为什么这是谬误,有更好的解释吗?

3
“独立观察”是什么意思?
我试图理解独立观察的假设意味着什么。一些定义是: “只有当两个事件才是独立的。” (统计术语词典)P(一个∩ b )= P(一)* P(b )P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) “一个事件的发生不会改变另一个事件的可能性”(维基百科)。 “对一个观察值进行采样不会影响对第二个观察值的选择”(David M. Lane)。 经常出现的依赖观察的一个例子是学生嵌套在教师中,如下所示。假设教师影响学生,但学生彼此不影响。 那么,这些数据如何违反这些定义?[学生= 1]的采样[等级= 7]不会影响下一个要采样的等级的概率分布。(或者是?如果是,那么观察1对下一个观察有何预测?) 如果我不进行测量 gender , 为什么观测结果是独立的teacher_id?它们不是以相同的方式影响观察结果吗? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

3
如果您的随机样本显然没有代表性怎么办?
如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.