统计和大数据 sampling

2

假设我的样本量较小，例如N = 100，并且有两个类别。如何为机器学习选择训练，交叉验证和测试集的大小？我会直觉地选择训练集大小为50 交叉验证集大小为25，并且测试大小为25。但这可能或多或少都有意义。我应该如何真正确定这些价值？我可以尝试其他选择吗（尽管我认为它不是那么可取……过度学习的可能性增加了）？如果我上两节课以上怎么办？

10 machine-learning sampling svm cross-validation sample-size

3

重新加权美国社区调查多样性数据将如何影响其误差范围？

背景：我的组织目前根据美国社区调查（美国人口普查局的一项调查项目），将其劳动力多样性统计数据（例如，残疾人百分比，妇女百分比，退伍军人百分比）与这些群体的劳动力总数进行比较。这是一个不准确的基准，因为我们有一组非常具体的工作，这些工作的人口统计学与整体劳动力不同。例如，假设我的组织主要是工程师。在我所在的州，工程学只有大约20％的女性。如果我们将自己与总劳动力基准进行比较（该基准更像是50％的女性），则会引起恐慌：“我们只有20％的女性，这是一场灾难！” 实际上，我们应该期望达到20％，因为这就是劳动力状况。我的目标：我想做的是获取《美国社区调查》的职业数据（按多样性类别），然后根据我的工作岗位构成对其进行加权。这是社会和社区服务工作者的样本数据集。我想将这些工作代码加在一起（因为我们的人行横道是工作组，而不是特定的工作代码），然后我要根据该类别中的人数（例如我们的3,000个社交网络和社区服务工作者），那么我想对所有其他工作组执行相同的操作，将这些数字加在一起，然后除以我们的工作者总数。这将为我提供一种新的重新加权的多样性衡量指标（例如，从6％的残疾人到2％的残疾人）。我的问题：如何使误差范围适合此最终汇总基准？我没有原始的人口普查数据集（显然），但是您可以通过将表格顶部的“估计”字段切换为“误差范围”，在我提供的链接中查看每个数字的误差范围。我与这些数据一起工作的其他同事完全打算忽略误差范围，但我担心我们正在为自己创建一个无统计学意义的基准。经过上述操作后，该数据是否仍然仍然可用？

10 confidence-interval sampling data-transformation diversity

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

高阶矩的高斯似分布

对于均值和方差未知的高斯分布，标准指数族形式的充分统计量为。我的分布具有，其中N有点像设计参数。这种足够的统计向量是否有相应的已知分布？我需要此分布中的样本，因此从分布中获取准确的样本对我来说至关重要。非常感谢。ţ （X ）= （X ，X 2，。。。，X 2 Ñ）Ť（x ）= （x ，x2）T(x)=(x,x2)T(x)=(x,x^2)Ť（x ）= （x ，x2，。。。，X2 N）T(x)=(x,x2,...,x2N)T(x)=(x,x^2,...,x^{2N})

10 normal-distribution sampling exponential-family

1

分位数的定义

给定N个采样值，“采样值的第p个分位数”是什么意思？

10 sampling

3

使用MCMC评估高维函数的期望值

我正在从事与优化相关的研究项目，最近有了一个在此环境中使用MCMC的想法。不幸的是，我对MCMC方法还很陌生，所以我有几个问题。我将从描述问题开始，然后问我的问题。我们的问题归结为估算成本函数其中是密度为的维随机变量。。c(ω)c(ω)c(\omega)ω=(ω1,ω2,...ωh)ω=(ω1,ω2,...ωh)\omega = (\omega_1,\omega_2,...\omega_h)hhhf(ω)f(ω)f(\omega) 在我们的情况下，不存在的封闭形式版本。这意味着我们必须使用蒙特卡洛方法来近似期望值。不幸的是，事实证明，使用MC或QMC方法生成的E [ c （ω ）]估计值差异太大，无法在实际环境中使用。c(ω)c(ω)c(\omega)E[c(ω)]E[c(ω)]E[c(\omega)] 一个想法是，我们必须使用重要性采样分布来生成采样点，该采样点将产生的低方差估计E[c(ω)]E[c(ω)]E[c(\omega)]。在我们的案例中，理想重要性抽样分布g(ω)g(ω)g(\omega)必须与大致成比例c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)。看看如何知道g(ω)g(ω)g(\omega)直到常数，我想知道是否可以将MCMC与提案分布c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)最终从产生样本g(ω)g(ω)g(\omega)。我的问题是：可以在此设置中使用MCMC吗？如果是这样，哪种MCMC方法合适？我在MATLAB中工作，因此我偏爱已经具有MATLAB实现的任何内容。有什么我可以用来加速MCMC老化时间的技术。我怎么知道已经达到平稳分布？在这种情况下，对于给定的ω实际上需要花费相当多的时间来计算。c(ω)c(ω)c(\omega)ωω\omega

10 sampling mcmc matlab expected-value

2

如何从非负整数的离散分布中采样？

我有以下离散分布，其中是已知常数：α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots 有什么方法可以有效地从这种分布中采样？

10 sampling mcmc computational-statistics importance-sampling rejection-sampling

3

非随机样本的随机化

我总是对参加实验研究的心理广告感到惊讶。可以肯定的是，对这些广告做出回应的人们并不是随机抽样的，因此是一个自我选择的人群。因为众所周知，随机化解决了自选问题，所以我想知道非随机样本的随机化是否真的改变了一切。你怎么看？而且，我们应该基于大量自选样本对所有这些心理实验做些什么？

10 sampling psychology random-allocation

2

基于马尔可夫链的抽样是蒙特卡洛抽样的“最佳”方法吗？有替代方案吗？

马尔可夫链蒙特卡洛方法是基于马尔可夫链的方法，它使我们能够从非标准分布中获取样本（在蒙特卡洛环境中），而我们无法直接从中提取样本。我的问题是，为什么马尔可夫链对于蒙特卡洛采样来说是“最先进的”。另一个问题可能是，是否还有其他方法（如马尔可夫链）可用于蒙特卡洛采样？我知道（至少从研究文献的角度来看）MCMC具有深厚的理论根源（就（a）周期性，同质性和详细平衡之类的条件而言），但我想知道蒙特卡洛是否有任何“可比的”概率模型/方法卡洛采样类似于马尔可夫链。如果我对问题的某些部分感到困惑（或者似乎完全令人困惑），请指导我。

10 sampling mcmc monte-carlo markov-chain stochastic-approximation

1

有关电话簿中采样示例的参考

我今天和某人谈论抽样问题，并且隐约记得一个故事，该故事涉及一位非常受尊敬的统计学家，建议在特定法律案件中从电话簿中进行系统抽样。我记得这个故事就像法官在法庭上对他说的话，例如“我不太了解统计信息，但我确实知道对第100个姓名进行抽样并不正确”，然后他不得不向法官解释说实际上，他曾建议这样做。有人知道这个故事的来历吗，或者我记得正确吗？我想刷新我对上下文的记忆。感觉就像我在Mosteller的回忆录中读到的东西一样，但是经过检查却在那儿找不到。此外，我们部门的某人说听起来很熟悉，并认为可能是科克伦，还有其他人想起了乔治·科布（George Cobb）讲过类似的故事，但这对我的搜索也没有帮助。

10 sampling references history

4

并联电阻的变化

假设您有一组电阻R，所有电阻均以均值μ和方差σ分布。考虑具有以下布局的电路的一部分：（r）|| （r + r）|| （r + r + r）。每个部分的等效电阻分别为r，2r和3r。然后每个部分的方差是σ2σ2σ^2，2σ22σ22σ^2，3σ23σ23σ^2。整个电路的电阻变化是多少？在对数百万个点进行采样之后，我们发现方差约为.10286σ2.10286σ2.10286\sigma^2。我们将如何分析得出这个结论？编辑：假设电阻值是正态分布的，具有一些平均电阻r和方差σ2σ2σ^2。

10 probability sampling variance

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

如何从大型整体数据集中制作具有代表性的样本集？

创建代表整个总体（已知置信度）的样本集的统计技术是什么？也，如果样本适合整体数据集，如何验证？是否可以不分析整个数据集（可能是数十亿条记录）？

10 sampling sample-size validation

1

哪种深度学习模型可以对不互斥的类别进行分类

示例：我的职位描述中有一句话：“英国Java高级工程师”。我想使用深度学习模型将其预测为2类：English 和IT jobs。如果我使用传统的分类模型，则只能预测softmax最后一层具有功能的标签。因此，我可以使用2个模型神经网络来预测两个类别的“是” /“否”，但是如果我们有更多类别，那就太贵了。那么，我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别？ “编辑”：使用传统方法使用3个标签，它将由[1,0,0]编码，但在我的情况下，它将由[1,1,0]或[1,1,1]编码示例：如果我们有3个标签，并且所有这些标签都适合一个句子。因此，如果softmax函数的输出为[0.45，0.35，0.2]，我们应该将其分类为3个标签或2个标签，或者可以是一个？我们这样做的主要问题是：分类为1个，2个或3个标签的最佳阈值是多少？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

引导程序样本与原始样本完全相同的机会

只想检查一些推理。如果我的原始样本大小为并且我对其进行引导，那么我的思考过程如下：nnn 1n1n\frac{1}{n}是从原始样本中提取任何观察值的机会。为了确保下一次绘制不是先前采样的观测值，我们将样本大小限制为。因此，我们得到以下模式：n − 1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1个ñ⋅1个ñ-1个⋅1个ñ-2⋯1个ñ-（ñ-1个）=1个ñ！。 \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. 它是否正确？我偶然发现了为什么不能。(1n)n（1个ñ）ñ(\frac{1}{n})^n

9 sampling bootstrap sample-size subsampling

Questions tagged «sampling»