Questions tagged «sample-size»

这个标签是非常模糊的。当问题与样本大小有关且以下任何一项都不更合适时,请使用它:[小样本],[大数据],[功效分析],[功效],[不确定]或[不平衡类别]。

1
为什么方差的采样分布是卡方分布?
该声明 样本方差的样本分布是自由度等于的卡方分布,其中是样本大小(假设感兴趣的随机变量是正态分布的)。nn−1n−1n-1nnn 资源 我的直觉 这对我来说有点直觉,1)因为卡方检验看起来像是平方和; 2)卡方分布只是正态分布的平方和。但是,我对此仍然不太了解。 题 这句话是真的吗?为什么?

1
表明对5个主题进行100次测量比对100个主题进行5次测量提供的信息少得多
在一次会议上,我无意中听到以下声明: 5个主题的100次测量所提供的信息比100个主题的5次测量要少得多。 显然这是对的,但是我想知道如何用数学方式证明这一点……我认为可以使用线性混合模型。但是,我对用于估算它们的数学知识不甚了解(我只lmer4为LMM和bmrsGLMM 运行:)您能给我展示一个真实的例子吗?与R中的某些代码相比,我更希望提供一些公式的答案。请随意假设一个简单的设置,例如具有正态分布的随机截距和斜率的线性混合模型。 PS不涉及LMM的基于数学的答案也是可以的。我之所以想到LMM,是因为它们在我看来是一种自然的工具,可以解释为什么来自更多学科的较少量度要比来自少数学科的更多量度更好,但是我很可能错了。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
中心极限定理需要大样本量的分布示例
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯X¯\bar{X}。 我知道这还不够所有发行版。 我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。 我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。

1
是否进行统计检验以比较两个大小为1和3的样本?
对于一个生态项目,我的实验室小组将醋添加到4个装有等量池塘水的水箱,1个无伊乐藻的对照(一种水生植物)和3个各含相同伊乐藻的处理液中。添加醋的目的是降低pH。假设是装有伊乐藻的水箱会更快地回到其正常pH值。确实是这样。我们每天测量每个水箱的pH值大约两个星期。最终所有的水箱都恢复到其自然pH值,但是对于装有伊乐藻的水箱,这花费的时间要短得多。 当我们告诉教授我们的实验设计时,他说没有可以对数据进行统计学检验以将对照与治疗进行比较的统计检验。那是因为对照没有重复项(我们只使用了一个对照槽),所以无法计算方差,因此无法比较对照和处理的样本均值。所以我的问题是,这是真的吗?我绝对明白他的意思。例如,如果您仅举一男一女的身高,就无法得出有关他们各自人口的结论。但是我们做了3种治疗,差异很小。假设控制中的方差相似是合理的吗? 更新: 感谢您的出色回答。我们从湿地中获得了更多的水和伊乐藻,并决定我们将再次使用较小的水箱进行实验,但是这次使用了5个对照和5种处理方法。我们将把它与原始数据结合起来,但是水箱的起始pH值足够不同,以至于认为新实验是从与原始实验相同的种群中采样似乎无效。 我们考虑添加不同数量的伊乐藻,并尝试将pH修复的速度(以直到pH恢复至其原始值所需的时间来衡量)与伊乐藻的数量相关联,但我们认为这是不必要的。我们的目的仅是表明伊乐藻具有积极的作用,而并非针对pH对不同数量的伊乐藻的确切反应建立某种预测模型。确定最佳的伊乐藻数量,但这可能只是可以存活的最大数量。由于增加大量社区时会发生各种复杂的变化,因此尝试对数据拟合回归曲线不会特别有意义。电极死亡,分解,新生物开始占主导地位,依此类推。




4
计算所需的样本量,方差估计的精度?
背景 我有一个未知分布的变量。 我有500个样本,但是我想证明我可以计算方差的精度,例如说500的样本量就足够了。我也想知道以的精度估算方差所需的最小样本量X%X%X\%。 问题 我该如何计算 给定样本量,我估计方差的精度n=500n=500n=500?的n=Nn=Nn=N? 如何计算以精度估算方差所需的最小样本数XXX? 例 图1基于500个样本的参数密度估计。 图2这是我使用500个样本的子样本计算出的x轴上的样本大小与y轴上的方差估计值之间的关系图。想法是随着n的增加,估计值将收敛到真实方差。 然而,估计是无效的独立自样品用于估计方差n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]是不相互独立的或在用于计算方差的样本n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

8
未配对t检验的最小样本量
是否有“规则”来确定t检验有效所需的最小样本量? 例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。 可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?


3
在对大量人口进行投票时,您如何确定样本量?
澳大利亚目前正在进行选举,可以理解,媒体每天都会报道新的政治民意调查结果。在一个2200万的国家中,需要多少百分比的人口才能获得统计上有效的结果? 使用太大的样本是否可能会影响结果,或者统计有效性是否随样本大小单调增加?

3
引导程序:过度拟合的问题
假设一个人通过从原始n个观测值中替换得到每个大小为n的样本来执行所谓的非参数引导。我相信此过程等效于通过经验CDF估算累积分布函数:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function 然后通过从估计的cdf B次连续模拟观察值来获得引导程序样本。nnnBBB 如果我对此是正确的,则必须解决过度拟合的问题,因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?例如,如果我告诉你,我有100个观测,我会估计CDF为N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2)有两个参数,你就不会惊慌。但是,如果参数数量增加到100,则似乎根本不合理。 同样地,当一个采用标准多元线性回归,误差项的分布被估计为。如果有人决定改用残差自举法,他必须意识到现在大约有nN(0,σ2)N(0,σ2)N(0, \sigma^2)nnn参数仅用于处理误差项分布。 您能否将我定向到一些明确解决此问题的消息源,或者告诉我如果您认为我做错了为什么这不是问题。

2
样本数量不相等:何时退出
我正在同peer审查一篇学术期刊文章,作者写了以下内容作为不报告任何推论统计数据的理由(我确定了这两组的性质): 总共的2349(1.1%)的受访者25报道X。我们适当地避免提供将X组与Y组(其他2,324名参与者)进行统计学比较的分析,因为这些结果可能是偶然性所驱动,而这种结果很少见。 我的问题是,这项研究的作者是否有理由在比较群体方面有所作为?如果没有,我会向他们推荐什么?

7
短时间序列值得建模吗?
这是一些背景。我有兴趣确定两个环境变量(温度,营养水平)如何影响11年内响应变量的平均值。每年,都有超过10万个位置的数据。 目的是确定在11年的时间段内,响应变量的平均值是否已响应环境变量的变化(例如,温度升高+更多养分将=更大响应)。 不幸的是,由于响应是平均值(不看平均值,只有规则的年际变化会淹没信号),因此回归将是11个数据点(每年1个平均值),并带有2个解释变量。在我看来,即使数据集非常小,线性正回归也很难被认为是有意义的(除非关系非常强,否则甚至不满足名义上的40点/变量)。 我做这个假设对吗?谁能提供我可能会缺少的其他想法/观点? PS:一些警告:没有等待更多年就无法获取更多数据。因此,可用数据是我们真正需要处理的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.