Questions tagged «sample-size»

这个标签是非常模糊的。当问题与样本大小有关且以下任何一项都不更合适时,请使用它:[小样本],[大数据],[功效分析],[功效],[不确定]或[不平衡类别]。

1
比例的两样本比较,样本大小估计:R vs Stata
比例的两样本比较,样本大小估计:R vs Stata 对于样本量,我得到了不同的结果,如下所示: 在R中 power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 结果: n = 160.7777ñ=160.7777n = 160.7777 (因此161)。 在Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 结果: n = 174ñ=174n = 174 每组。 为什么会有所不同?谢谢。 顺便说一句,我在SAS JMP中运行了相同的样本量计算,结果:(几乎与R结果相同)。n = 160ñ=160n = 160

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
两组样本量小且不平衡-该怎么办?
我有两个组的数据(即样本),我想进行比较,但是总样本量很小(n = 29)并且严重不平衡(n = 22 vs n = 7)。 这些数据在逻辑上很难收集,而且费用昂贵,因此,“收集更多数据”作为一种明显的解决方案在这种情况下并没有帮助。 测量了许多不同的变量(出发日期,到达日期,迁移时间等),因此有多个测试,其中一些差异非常大(较小的样本具有较高的差异)。 最初,一位同事对这些数据进行了t检验,其中一些在统计学上具有显着性,P <0.001,而另一个在P = 0.069上不显着。一些样本是正态分布的,而其他样本则不是。一些测试涉及与“相等”方差的较大偏差。 我有几个问题: T检验在这里合适吗?如果没有,为什么?这仅适用于满足正态性和方差相等的假设的测试吗? 什么是合适的替代品?也许是排列测试? 不相等的方差会夸大类型I的错误,但是怎么办?小而不平衡的样本量对I型错误有什么影响?


2
如果我希望有95%的机会出现少于1%的对象有故障,我需要多少个样本?
我需要确保我的XML网站地图的垃圾少于(链接断开)。URL的列表是成百上千的,即使出于所有原因我也可能不愿意一一测试所有URL,但我还是不愿意这样做:1%1%1\% 1 - Saved bandwidth 2 - Faster traffic for real clients 3 - Less noise in visitor statistics (because my test would count as a visit) 5 - I could go on... 所以我认为随机取一个子集就足够了,问题是我不知道概率。 我可以使用一个简单的功能吗? 如果有帮助的话,我们可以假设有一个先验信息,可了解链路在运行过程中断裂的可能性。假设在每次运行中,给定链接的断开为。0.75%0.75%0.75\%

1
引导程序样本与原始样本完全相同的机会
只想检查一些推理。 如果我的原始样本大小为并且我对其进行引导,那么我的思考过程如下:nnn 1n1n\frac{1}{n}是从原始样本中提取任何观察值的机会。为了确保下一次绘制不是先前采样的观测值,我们将样本大小限制为。因此,我们得到以下模式:n − 1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1个ñ⋅1个ñ-1个⋅1个ñ-2⋯1个ñ-(ñ-1个)=1个ñ!。 \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. 它是否正确?我偶然发现了为什么不能。(1n)n(1个ñ)ñ(\frac{1}{n})^n

4
当您不知道分布时如何采样
我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本? 举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。 无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。 对于这种情况,是否存在更好的采样机制? 您如何告诉先验使用哪种采样程序(以及需要多少个样本)? 在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。

3
置信区间与样本量?
我是统计和置信区间领域的新手。因此,这可能非常琐碎,甚至听起来很愚蠢。如果您能帮助我理解或指出一些可以更好地说明这一点的文献/文字/博客,我将不胜感激。 我在美国有线电视新闻网(CNN),福克斯新闻(Fox news),政治新闻(Poliitico)等各种新闻网站上看到了有关2012年美国总统大选的民意调查。每个机构都进行一些民意调查,并以以下形式报告一些统计数据: CNN:奥巴马的人气为X%,误差幅度为+/- x1%。样本数量600。FOX:奥巴马的受欢迎程度为Y%,误差幅度为+/- y1%。样本数量800。XYZ:Obama的受欢迎程度为Z%,误差范围为+/- z1%。样本数量300。 这是我的疑问: 我该如何决定信任哪一个?应该基于置信区间,还是应该假设由于Fox样本量较大,因此估计更为可靠吗?置信度迭代次数和样本数量之间是否存在隐式关系,以至于指定一个样本就不必指定另一个样本了? 我可以确定置信区间的标准偏差吗?如果是这样,它始终有效还是仅对某些分布有效(如高斯分布)? 有什么方法可以“合并”或“合并”以上三个估计,并获得我自己的估计以及置信区间?在这种情况下,我应主张多少样本数量? 我提到CNN / Fox只是为了更好地说明我的示例。我无意在这里开始民主党与共和党的辩论。 请帮助我理解我提出的问题。

3
如何验证极低的错误率
我面临尝试通过测试证明传感器的错误率极低(在1,000,000次尝试中不超过1个错误)的问题。我们进行实验的时间有限,因此我们预计无法获得超过4,000次尝试。我看不出传感器不符合要求的问题,因为即使在4,000次尝试中发生一个错误,对于错误率的下限仍大于0.000001的情况,也会产生95%的置信区间。然而,表明它确实满足要求是问题,因为即使4,000次尝试中的0个错误仍然会导致下限大于0.000001。任何建议将不胜感激。

1
重复测量中比例样本的大小
我正在尝试帮助科学家针对沙门氏菌微生物的发生设计研究。他想将家禽养殖场的实验性抗菌制剂与氯(漂白剂)进行比较。由于沙门氏菌的本底率会随时间而变化,因此他计划在治疗之前和之后测量家禽含沙门氏菌的百分比。因此,测量值将是实验配方奶粉与氯配方奶粉之前/之后的沙门氏菌百分比之差。 谁能建议如何估算必要的样本量?假设背景率为50%;漂白后为20%;并且我们想检测实验配方是否将速率更改了+/- 10%。谢谢 编辑:我正在苦苦挣扎的是如何纳入背景利率。让我们将它们称为p3和p4,分别是漂白样品和实验样品的“沙门氏菌感染率”。因此,要估计的统计量是差异的差异:实验(之前-之后)-漂白(之前-之后)=(p0-p2)-(p3-p1)。为了在样本量计算中充分考虑“之前”比率p2和p3的采样变化---是否像使用p0(1-p0)+ p1(1-p1)+ p2(1-p2)一样简单+ p3(1-p3)在样本大小方程式中哪里有变化项?令所有样本大小相等,n1 = n2 = n。

2
动态计算估计均值所需的样本数量
我正在尝试通过抽样估计高斯分布的均值。我尚无关于其均值或方差的知识。每个样品的获取都很昂贵。如何动态确定要获得一定水平的置信度/准确性所需的样本数量?另外,我如何知道何时可以停止采样? 我能找到的所有类似问题的答案似乎都是对方差的一些了解,但我也需要一路发现这一点。其他人则适合进行民意调查,但我(初学者是我)还不清楚这种说法的普遍性-我的意思不是[[0,1]等)。 我认为这可能是一个答案很简单的简单问题,但是我的Google-fu令我失望。即使只是告诉我要搜索的内容也会很有帮助。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.