Questions tagged «sample»

样本是总体的子集。通常,统计数据与使用样本推断控制更大(可能是无限)总体的参数有关。

4
如何从大清单中抽取许多10个样本,而不整体替换
我有大量数据(20,000个数据点),我想从中重复取样10个数据点。但是,一旦选择了这10个数据点,就不要再次选择它们。 我已经尝试过使用该sample函数,但是它似乎没有一个选项,可以在不替换该函数的多个调用的情况下进行采样。有没有简单的方法可以做到这一点?
12 r  sample 

1
如果总体平均值已知,则估算总体方差
我知道我们用来估计群体的方差。我记得可汗学院的一段视频,根据直觉,我们的估计均值可能与实际均值因此距离实际上会更大,因此我们除以除以(而不是)获得更大的价值,从而得到更好的估计。 我记得读书的地方,我如果我有实际人口平均不需要这个修正μ代替 ˉ X。所以我估计11个n − 1∑一世(x一世− x¯)21个ñ-1个∑一世(X一世-X¯)2\frac1{n-1}\sum\limits_i(x_i - \bar{x})^2 ñ - 1个ñX一世− x¯X一世-X¯x_i - \bar{x}n − 1ñ-1个n-1ññnμμ\muX¯X¯\bar{x} ,但我无法找到它了。是真的吗 有人可以给我指点吗?1个ñ∑一世(x一世- μ )21个ñ∑一世(X一世-μ)2\frac1{n}\sum\limits_i(x_i - \mu)^2
11 variance  sample 

5
如果不是泊松,那么这是什么分布?
我有一个数据集,其中包含个人在7天内执行的操作数。具体操作与该问题无关。下面是该数据集的一些描述性统计: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} 这是数据的直方图: 从数据的来源来看,我认为它适合泊松分布。但是,均值≠方差,并且直方图在左侧的权重很高。另外,我goodfit在R中运行测试并得到: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

1
SurveyMonkey是否会忽略您获得非随机样本的事实?
SurveyMonkey提供了一些步骤和图表,可根据您的总体数量来确定在给定的误差范围或置信区间内需要的样本量。 SurveyMonkey样本大小 该图表是否只是忽略了这样一个事实,即您只会得到那些愿意回答调查问卷的人,因此不会获得随机样本? 当我输入此内容时,我会收到警告,问题似乎是主观的,所以也许我没有正确询问。它不是真的与SurveyMonkey有关,而是一个更笼统的问题-您是否可以使用一些我不知道的高级技术从自愿响应数据中实际计算出置信区间? 在出口民意测验或国家调查中,显然他们必须处理这个问题。我的教育并未深入探讨调查抽样技术,但我认为它涉及收集人口统计数据,并以此来了解您所代表的样本的代表性。 除此之外,对于一个简单的在线调查,他们是否只是假设那些愿意回答的人是整个人口的随机样本?

1
为什么样本比例也没有二项分布
在二项式设置中,给出成功次数的随机变量X是二项式分布的。然后可以将样本比例计算为,其中是样本量。我的教科书指出 nXnXn\frac{X}{n}nnn 这一比例也不会有二项分布 但是,由于只是二项分布随机变量的缩放版本,它不也应具有二项分布吗? XXnXn\frac{X}{n}XXX

2
通过使用一组样本估算多个集合的交集的大小
我正在研究一种算法,该算法需要计算由至少2个集合的交集生成的集合的大小。进一步来说: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | 相交的集合是由SQL查询生成的,为了保持运行速度,我提前获取了每个查询的计数,然后以计数最小()的集合为准,并使用这些ID作为其余的大查询,因此交集实际上变为:A0A0A_0 z=|(A0∩A1)∩…∩(A0∩An)|z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap \ldots \cap \left ( A_0 \cap A_n \right ) \right | 即使这个策略也让我有一些相当大的查询要运行,因为有时可能很大。我要解决的想法是随机抽取样本,并将其与其余集合相交,然后外推回的适当估计。我的问题是:进行采样然后外推以返回到值(如果不是完全准确的话)具有可预测的误差范围的最佳方法是什么?|A0||A0|\left | A_0 \right |A0A0A_0zzzzzz 到目前为止,这是我尝试过的(使用伪代码): sample_threshold := 10000 factor := 1 if (len(A0) …
10 error  sample 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
计算用于模型拟合/训练和验证的样本数据的比率
提供了我计划用来预测数据的样本量“ N”。有哪些方法可以细分数据,以便我使用其中的一些数据来建立模型,而其余数据可以用来验证模型? 我知道对此没有黑白答案,但是了解一些“经验法则”或通常使用的比率将很有趣。我知道在大学时,我们的一位教授曾经说过要在60%的情况下建模并在40%的情况下进行验证。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.