Questions tagged «sample»

样本是总体的子集。通常,统计数据与使用样本推断控制更大(可能是无限)总体的参数有关。

25
查找免费可用的数据样本
我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。 我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?


3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
如果您的随机样本显然没有代表性怎么办?
如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
如何确定ping响应时间上该数据代表哪种分布?
我已经采样了一个真实的过程,即网络ping时间。“往返时间”以毫秒为单位。结果绘制在直方图中: Ping时间具有最小值,但尾巴较长。 我想知道这是什么统计分布,以及如何估算其参数。 即使该分布不是正态分布,我仍然可以显示我要实现的目标。 正态分布使用以下功能: 有两个参数 μ(平均值) σ 2 (方差) 参数估计 估算两个参数的公式为: 将这些公式应用于Excel中的数据,我得到: μ= 10.9558(平均值) σ 2 = 67.4578(方差) 使用这些参数,我可以在采样数据上方绘制“ 正态 ”分布: 显然,这不是正态分布。正态分布具有无限的顶部和底部尾部,并且是对称的。这种分布是不对称的。 我将采用什么原则?我将采用哪种流程图来确定这是哪种分布? 假设分布没有负尾巴,而有长正尾巴:什么分布与之匹配? 是否有与您所观察到的分布相匹配的参考? 紧追其后,此分布的公式是什么,以及估算其参数的公式是什么? 我想要获得分布,以便获得“平均”值以及“价差”: 我实际上是在软件中绘制直方图,我想覆盖理论分布: 注意:从math.stackexchange.com交叉发布 更新:160,000个样本 一个月又一个月,以及不计其数的抽样会议,都给出了相同的分布。有必须是一个数学表达式。 哈维建议将数据放在对数刻度上。这是对数刻度上的概率密度: 标签:抽样,统计,参数估计,正态分布 这不是答案,而是问题的附录。这是分配桶。我认为,喜欢冒险的人可能希望将其粘贴到Excel(或您知道的任何程序)中,并可以发现其分布。 值已标准化 Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 …


3
引导程序:过度拟合的问题
假设一个人通过从原始n个观测值中替换得到每个大小为n的样本来执行所谓的非参数引导。我相信此过程等效于通过经验CDF估算累积分布函数:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function 然后通过从估计的cdf B次连续模拟观察值来获得引导程序样本。nnnBBB 如果我对此是正确的,则必须解决过度拟合的问题,因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?例如,如果我告诉你,我有100个观测,我会估计CDF为N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2)有两个参数,你就不会惊慌。但是,如果参数数量增加到100,则似乎根本不合理。 同样地,当一个采用标准多元线性回归,误差项的分布被估计为。如果有人决定改用残差自举法,他必须意识到现在大约有nN(0,σ2)N(0,σ2)N(0, \sigma^2)nnn参数仅用于处理误差项分布。 您能否将我定向到一些明确解决此问题的消息源,或者告诉我如果您认为我做错了为什么这不是问题。


4
人口的任何数量特性是“参数”吗?
我对术语统计和参数之间的区别比较熟悉。我认为统计量是通过将函数应用于样本数据而获得的值。但是,参数的大多数示例都与定义参数分布有关。一个常见的例子是均值和标准差,以参数化正态分布;系数和误差方差,以参数化线性回归。 但是,还有许多其他的人口分布值不是典型值(例如,最小回归,最大值,多元回归中的r平方,0.25分位数,中位数,系数非零的预测变量数量,偏度,数量大于0.3的相关性矩阵中的相关性等)。 因此,我的问题是: 人口的任何数量特性是否应标记为“参数”? 如果是,那为什么呢? 如果否,哪些特征不应标记为参数?它们应贴上什么标签?又为什么呢? 阐述混乱 维基百科有关估算器的文章指出: “估计器”或“点估计”是用于推断统计模型中未知参数值的统计信息(即数据的函数)。 但是我可以将未知值定义为.25分位数,并且可以为该未知数开发一个估算器。即,并非所有种群的定量特性都是以均值和sd为正态分布参数的相同方式作为参数,但是试图估算任何定量种群特性是合理的。

1
大样本渐近/理论-为什么要关心?
我希望这个问题不会被标记为“过于笼统”,并希望开始进行有益于所有人的讨论。 在统计中,我们花费大量时间来学习大型样本理论。我们对评估我们的估计量的渐近性质非常感兴趣,包括它们是否渐近无偏,渐近有效,它们的渐近分布等。渐近这个词与的假设紧密相关。n→∞n→∞n \rightarrow \infty 但是,实际上,我们总是处理有限的。我的问题是:nnn 1)大样本是什么意思?我们如何区分大样本? 2)当我们说,我们的字面意思是应该去吗?ñ ∞n→∞n→∞n \rightarrow \inftynnn∞∞\infty 例如对于二项分布,大约需要n = 30才能收敛到CLT下的正态分布。我们应该是还是在这种情况下为,是30或更多? Ñ→交通∞∞X¯X¯\bar{X}n→∞n→∞n \rightarrow \infty∞∞\infty 3)假设我们有一个有限的样本,并假设我们了解估计量的渐近行为的所有知识。所以呢?假设我们的估计量是渐近无偏的,那么我们在有限样本中是否对感兴趣​​的参数有一个无偏的估计,或者这意味着如果我们有,那么我们将有一个无偏的估计?n→∞n→∞n \rightarrow \infty 从上面的问题中可以看到,我试图理解“大样本渐近”背后的哲学,并了解我们为什么在乎?我需要对所学的定理有一些直觉。

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

2
随机变量和随机样本有什么区别?
当我学习统计学时,这两个表达使我很困惑。在我看来,它们是完全不同的东西。 甲随机样本是从群体中随机取一个样品,而随机变量是这样一组的实验的所有可能结果的映射到实数的函数。 但是,假设我画了一些样本,,和,其中和未知,那么,,随机样本还是随机变量?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

2
Kaggle比赛是不是偶然赢了?
Kaggle竞赛根据坚持下来的测试集确定最终排名。 保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗? 对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案! 是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.