Questions tagged «population»

总体是可以从中抽取样本的整套单位。

12
为什么95%的置信区间(CI)并不意味着95%的机会包含平均值?
似乎在这里通过各种相关问题,我们达成共识,即所谓的“ 95%置信区间”中的“ 95%”部分是指这样的事实:如果我们要多次精确地重复采样和CI计算过程, ,因此计算得出的95%的配置项将包含总体平均值。这也似乎是共识,这一定义确实不允许人们从单个95%CI得出结论,即平均值有95%的概率落在CI内。但是,我不理解前者在暗示许多95%的配置项包含总体均值的情况下并不暗示后者,就我们的不确定性而言(关于我们实际计算的配置项是否包含总体)是不是)强迫我们使用想象中的案例的基准利率(95%)作为我们对实际案例包含CI的概率的估计? 我见过一些文章按照“实际计算的CI包含总体均值或不包含总体均值,因此其概率为1或0”的论点进行争论,但这似乎暗示了对概率依赖性的奇怪定义在未知状态下(例如,一个朋友扔公平的硬币,隐藏结果,我被禁止说有50%的可能性是正面的)。 我当然错了,但是我看不出逻辑哪里出错了...

25
查找免费可用的数据样本
我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。 我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?

5
N和N-1在计算总体方差方面有什么区别?
在计算总体方差时,我没有得到为什么N和为什么N-1。什么时候使用N以及何时使用N-1? 点击这里查看大图 它说,当人口很大时,N和N-1之间没有区别,但是并不能说明为什么一开始就有N-1。 编辑:请不要与n和n-1用于估计的混淆。 Edit2:我不是在谈论人口估计。

5
当样本“是”总体时的统计推断
想象一下,您必须报告每年参加给定考试的候选人人数。例如,由于目标人群的特殊性,很难推断观察到的成功百分比,例如,在更广泛的人群中。因此,您可能会认为这些数据代表了整个人口。 测试结果是否表明男性和女性的比例确实正确?由于您考虑的是总体(而不是样本),因此将观察到的比例与理论比例进行比较的测试是否看起来是正确的?


3
仅了解最小值/最大值的数据的统计方法
是否有统计信息的一个分支来处理其确切值未知的数据,但是对于每个人,我们都知道该值的最大值或最小值? I suspect that my problem stems largely from the fact that I am struggling to articulate it in statistical terms, but hopefully an example will help to clarify: 假设存在两个相互连接的总体AAA和BBB,以便在某个时候成员AAA可以“转换”为BBB,但不可能相反。过渡时间是可变的,但不是随机的。例如,AAA可以是“没有后代的个体”,而BBB “至少有一个后代的个体”。我对这种进展发生的年龄感兴趣,但我只有横截面数据。对于任何给定的个体,我可以找出它们是否属于AAA或BBB。我也知道这些人的年龄。对于人群A中的每个人AAA,我知道过渡年龄将比其当前年龄更大。同样,对于B的成员BBB,我知道过渡年龄比当前年龄小。但是我不知道确切的值。 假设我还有其他一些要与过渡年龄进行比较的因素。例如,我想知道一个人的亚种或体型是否会影响第一个后代的年龄。我绝对有一些有用的信息可以回答这些问题:平均而言,在中的个体中AAA,年龄较大的个体将有一个较晚的过渡期。但是这些信息并不完美,特别是对于年轻人而言。反之亦然人口BBB。 Are there established methods to deal with this sort of data? I do not necessarily need a full …



4
人口的任何数量特性是“参数”吗?
我对术语统计和参数之间的区别比较熟悉。我认为统计量是通过将函数应用于样本数据而获得的值。但是,参数的大多数示例都与定义参数分布有关。一个常见的例子是均值和标准差,以参数化正态分布;系数和误差方差,以参数化线性回归。 但是,还有许多其他的人口分布值不是典型值(例如,最小回归,最大值,多元回归中的r平方,0.25分位数,中位数,系数非零的预测变量数量,偏度,数量大于0.3的相关性矩阵中的相关性等)。 因此,我的问题是: 人口的任何数量特性是否应标记为“参数”? 如果是,那为什么呢? 如果否,哪些特征不应标记为参数?它们应贴上什么标签?又为什么呢? 阐述混乱 维基百科有关估算器的文章指出: “估计器”或“点估计”是用于推断统计模型中未知参数值的统计信息(即数据的函数)。 但是我可以将未知值定义为.25分位数,并且可以为该未知数开发一个估算器。即,并非所有种群的定量特性都是以均值和sd为正态分布参数的相同方式作为参数,但是试图估算任何定量种群特性是合理的。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

1
男性和女性国际象棋选手-分布尾部的预期差异
我对2009年这篇论文的发现感兴趣: 为什么(最好的)女人擅长下象棋?知识领域的参与率和性别差异 本文试图解释为什么最好的国际象棋选手似乎比最好的女选手好得多(女选手仅占世界上最好的1000名选手的2%)。具体来说,他们声称最好的国际象棋棋手和最好的国际象棋棋手之间的巨大差异完全由两个事实解释: 男性下棋的人数是女性下棋人数的15倍 我们完全出于统计原因,预计该比率在分布的两端会加剧。引用本文: 即使两组的平均值(均值)和变异性(sd)相同,绩效最高的个人也更有可能来自较大的人群。两组之间的差异越大,两组中表现最好的组织之间的差异也就越大 然后再次, 这项研究表明,男女象棋选手的顶级表现差异很大,这在很大程度上可以归因于一个简单的统计事实-在较大的人群中发现了更多的极限值。 因此,根据作者的说法,如果只有6%的国际象棋棋手是女性,那么我们期望他们在前1000名中仅占2%,因此不需要其他有关生物学差异或社会偏见的解释。 我的问题 我无法理解这样一个想法,即人口规模的微小差异会在分布的极端加剧。特别是,此反例出了什么问题: 一月份出生的棋手约占十分之一。因此,它们只占所有棋手的一小部分。通过这些统计方法,我们希望他们在最高级别上的代表性不足-可能只有30名顶尖球员中有1名会在一月份出生。但是,当然,您可以对每个月应用相同的逻辑,最终得出一个荒谬的结论。 在我看来,如果将人群分为两组,那么在各个方面,您都期望拥有相同比例的表演者。 由于我与已发表论文的结果矛盾,我想我必须要问-我做错了什么?

2
按年龄段划分的大师级头衔资格的平均年龄偏倚?
众所周知,自1950年代以来,国际象棋棋手成功获得大师级头衔的最年轻年龄已大大降低,目前有近30位棋手在15岁生日之前成为大师级棋手。但是,Chess Stack Exchange上有一个问题,询问成为大师的平均年龄是多少?。 有人发布了一个答案,他(我假设是他)查看了六个大师的子集,并得出以下结果: 对于1945年以后出生的球员,平均年龄略高于26岁。 对于1970年以后出生的球员,平均年龄略高于23岁。 对于1975年以后出生的球员,平均年龄略高于22岁。 对于1980年以后出生的玩家,平均年龄为21岁。 对于1985年以后出生的球员,平均年龄不到20岁。 对于1990年以后出生的球员,平均年龄为18.5岁。 (对我来说,尚不完全清楚,例如第一组是否包含1945年以后出生的所有大师(这使它成为下一组的超集)还是仅包含1945年至1970年之间(年龄段)的大师。我认为是前者和我的问题在两种情况下都适用。) 问题在于,在1990年之后出生的玩家在答案发布时(2015年7月)还不到26岁,因此平均“ GM年龄”为26岁是不可能的。答案中最年轻的子集自然会切断任何超过25,而“较旧”的子集则没有。这不歪曲或偏向结果吗?(这是一种选择偏见吗?我没有统计学背景,阅读一些相关的Wikipedia条目也无济于事。)如果是,应该(或可以)减轻这种情况?在“较老的”组中,是否应仅以GM头衔资格的平均计算来考虑在26岁之前获得该头衔的球员?


1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
通过依次选择一个球并对其进行标记来估计球数
可以说我的书包里有N个球。在我的第一个平局中,我标记了球并将其放在袋子中。在第二次抽签中,如果我捡到一个标记的球,我会将其放回书包。但是,如果我捡起一个未标记的球,则对其进行标记,然后将其放回袋子。我将继续进行任何抽奖。给定多次抽签和带标记/不带记号的抽签历史,预期袋子中的球数是多少?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.