Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

2
如何为小样本数据选择训练,交叉验证和测试集大小?
假设我的样本量较小,例如N = 100,并且有两个类别。如何为机器学习选择训练,交叉验证和测试集的大小? 我会直觉地选择 训练集大小为50 交叉验证集大小为25,并且 测试大小为25。 但这可能或多或少都有意义。我应该如何真正确定这些价值?我可以尝试其他选择吗(尽管我认为它不是那么可取……过度学习的可能性增加了)? 如果我上两节课以上怎么办?

3
重新加权美国社区调查多样性数据将如何影响其误差范围?
背景:我的组织目前根据美国社区调查(美国人口普查局的一项调查项目),将其劳动力多样性统计数据(例如,残疾人百分比,妇女百分比,退伍军人百分比)与这些群体的劳动力总数进行比较。这是一个不准确的基准,因为我们有一组非常具体的工作,这些工作的人口统计学与整体劳动力不同。例如,假设我的组织主要是工程师。在我所在的州,工程学只有大约20%的女性。如果我们将自己与总劳动力基准进行比较(该基准更像是50%的女性),则会引起恐慌:“我们只有20%的女性,这是一场灾难!” 实际上,我们应该期望达到20%,因为这就是劳动力状况。 我的目标:我想做的是获取《美国社区调查》的职业数据(按多样性类别),然后根据我的工作岗位构成对其进行加权。这是社会和社区服务工作者的样本数据集。我想将这些工作代码加在一起(因为我们的人行横道是工作组,而不是特定的工作代码),然后我要根据该类别中的人数(例如我们的3,000个社交网络和社区服务工作者),那么我想对所有其他工作组执行相同的操作,将这些数字加在一起,然后除以我们的工作者总数。这将为我提供一种新的重新加权的多样性衡量指标(例如,从6%的残疾人到2%的残疾人)。 我的问题:如何使误差范围适合此最终汇总基准?我没有原始的人口普查数据集(显然),但是您可以通过将表格顶部的“估计”字段切换为“误差范围”,在我提供的链接中查看每个数字的误差范围。我与这些数据一起工作的其他同事完全打算忽略误差范围,但我担心我们正在为自己创建一个无统计学意义的基准。经过上述操作后,该数据是否仍然仍然可用?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
高阶矩的高斯似分布
对于均值和方差未知的高斯分布,标准指数族形式的充分统计量为。我的分布具有,其中N有点像设计参数。这种足够的统计向量是否有相应的已知分布?我需要此分布中的样本,因此从分布中获取准确的样本对我来说至关重要。非常感谢。ţ (X )= (X ,X 2,。。。,X 2 Ñ)Ť(x )= (x ,x2)T(x)=(x,x2)T(x)=(x,x^2)Ť(x )= (x ,x2,。。。,X2 N)T(x)=(x,x2,...,x2N)T(x)=(x,x^2,...,x^{2N})


3
使用MCMC评估高维函数的期望值
我正在从事与优化相关的研究项目,最近有了一个在此环境中使用MCMC的想法。不幸的是,我对MCMC方法还很陌生,所以我有几个问题。我将从描述问题开始,然后问我的问题。 我们的问题归结为估算成本函数其中是密度为的维随机变量。。c(ω)c(ω)c(\omega)ω=(ω1,ω2,...ωh)ω=(ω1,ω2,...ωh)\omega = (\omega_1,\omega_2,...\omega_h)hhhf(ω)f(ω)f(\omega) 在我们的情况下,不存在的封闭形式版本。这意味着我们必须使用蒙特卡洛方法来近似期望值。不幸的是,事实证明,使用MC或QMC方法生成的E [ c (ω )]估计值差异太大,无法在实际环境中使用。c(ω)c(ω)c(\omega)E[c(ω)]E[c(ω)]E[c(\omega)] 一个想法是,我们必须使用重要性采样分布来生成采样点,该采样点将产生的低方差估计E[c(ω)]E[c(ω)]E[c(\omega)]。在我们的案例中,理想重要性抽样分布g(ω)g(ω)g(\omega)必须与大致成比例c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)。看看如何知道g(ω)g(ω)g(\omega)直到常数,我想知道是否可以将MCMC与提案分布c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)最终从产生样本g(ω)g(ω)g(\omega)。 我的问题是: 可以在此设置中使用MCMC吗?如果是这样,哪种MCMC方法合适?我在MATLAB中工作,因此我偏爱已经具有MATLAB实现的任何内容。 有什么我可以用来加速MCMC老化时间的技术。我怎么知道已经达到平稳分布?在这种情况下,对于给定的ω实际上需要花费相当多的时间来计算。c(ω)c(ω)c(\omega)ωω\omega

2
如何从非负整数的离散分布中采样?
我有以下离散分布,其中是已知常数:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots 有什么方法可以有效地从这种分布中采样?

3
非随机样本的随机化
我总是对参加实验研究的心理广告感到惊讶。可以肯定的是,对这些广告做出回应的人们并不是随机抽样的,因此是一个自我选择的人群。 因为众所周知,随机化解决了自选问题,所以我想知道非随机样本的随机化是否真的改变了一切。 你怎么看 ?而且,我们应该基于大量自选样本对所有这些心理实验做些什么?

2
基于马尔可夫链的抽样是蒙特卡洛抽样的“最佳”方法吗?有替代方案吗?
马尔可夫链蒙特卡洛方法是基于马尔可夫链的方法,它使我们能够从非标准分布中获取样本(在蒙特卡洛环境中),而我们无法直接从中提取样本。 我的问题是,为什么马尔可夫链对于蒙特卡洛采样来说是“最先进的”。另一个问题可能是,是否还有其他方法(如马尔可夫链)可用于蒙特卡洛采样?我知道(至少从研究文献的角度来看)MCMC具有深厚的理论根源(就(a)周期性,同质性和详细平衡之类的条件而言),但我想知道蒙特卡洛是否有任何“可比的”概率模型/方法卡洛采样类似于马尔可夫链。 如果我对问题的某些部分感到困惑(或者似乎完全令人困惑),请指导我。

1
有关电话簿中采样示例的参考
我今天和某人谈论抽样问题,并且隐约记得一个故事,该故事涉及一位非常受尊敬的统计学家,建议在特定法律案件中从电话簿中进行系统抽样。我记得这个故事就像法官在法庭上对他说的话,例如“我不太了解统计信息,但我确实知道对第100个姓名进行抽样并不正确”,然后他不得不向法官解释说实际上,他曾建议这样做。 有人知道这个故事的来历吗,或者我记得正确吗?我想刷新我对上下文的记忆。感觉就像我在Mosteller的回忆录中读到的东西一样,但是经过检查却在那儿找不到。此外,我们部门的某人说听起来很熟悉,并认为可能是科克伦,还有其他人想起了乔治·科布(George Cobb)讲过类似的故事,但这对我的搜索也没有帮助。

4
并联电阻的变化
假设您有一组电阻R,所有电阻均以均值μ和方差σ分布。 考虑具有以下布局的电路的一部分:(r)|| (r + r)|| (r + r + r)。每个部分的等效电阻分别为r,2r和3r。然后每个部分的方差是σ2σ2σ^2,2σ22σ22σ^2,3σ23σ23σ^2。 整个电路的电阻变化是多少? 在对数百万个点进行采样之后,我们发现方差约为.10286σ2.10286σ2.10286\sigma^2。 我们将如何分析得出这个结论? 编辑:假设电阻值是正态分布的,具有一些平均电阻r和方差σ2σ2σ^2。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
引导程序样本与原始样本完全相同的机会
只想检查一些推理。 如果我的原始样本大小为并且我对其进行引导,那么我的思考过程如下:nnn 1n1n\frac{1}{n}是从原始样本中提取任何观察值的机会。为了确保下一次绘制不是先前采样的观测值,我们将样本大小限制为。因此,我们得到以下模式:n − 1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1个ñ⋅1个ñ-1个⋅1个ñ-2⋯1个ñ-(ñ-1个)=1个ñ!。 \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. 它是否正确?我偶然发现了为什么不能。(1n)n(1个ñ)ñ(\frac{1}{n})^n

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.