Questions tagged «standard-error»

指从样本计算出的统计数据的样本分布的标准偏差。在形成置信区间或检验关于抽样统计数据的总体的假设时,通常需要标准误差。




3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
线性回归中预测值的置信区间形状
我注意到,线性回归中预测值的置信区间在预测器的平均值附近趋于狭窄,在预测器的最小值和最大值附近趋于胖。这可以从以下4个线性回归的图中看出: 我最初认为这是因为大多数预测变量的值都集中在预测变量的均值附近。但是,我然后注意到,即使许多的值集中在预测变量的极值附近,也会出现置信区间的狭窄中间,如左下方线性回归所示,预测变量的哪些值集中在预测值的最小值附近。预测变量。 有谁能解释为什么线性回归预测值的置信区间在中间趋于狭窄而在极端处趋于肥胖?

6
使用R进行套索预测的标准误差
我正在尝试使用LASSO模型进行预测,并且需要估算标准误差。肯定有人已经编写了一个软件包来执行此操作。但是据我所知,使用LASSO进行预测的CRAN程序包都不会返回这些预测的标准错误。 所以我的问题是:是否有可用的软件包或一些R代码来计算LASSO预测的标准误差?

4
二项式随机变量样本均值的标准误
假设我正在运行一个可能有2个结果的实验​​,并且我假设2个结果的基本“真实”分布是参数和的二项式分布:。p B i n o m i a l(n ,p )ññnpppB i n o m i a l(n,p)Binomial(n,p){\rm Binomial}(n, p) 我可以根据的方差形式 计算标准误差: 其中。因此,。对于标准错误,我得到:,但是我在某处看到。我做错了什么?乙我Ñø米我一升(Ñ,p)σ2X=Ñpqq=1-pσX=√小号ËX= σXñ√SEX=σXñSE_X = \frac{\sigma_X}{\sqrt{n}}B i n o m i a l(n,p)乙一世ñØ米一世一种升(ñ,p){\rm Binomial}(n, p)σ2X= n p qσX2=ñpq \sigma^{2}_{X} = npqq= 1 − pq=1个-pq = 1-p SEX= √σX= n p …

1
分位数回归:哪些标准误差?
summary.rq来自quantreg插图的功能为分位数回归系数的标准误差估计提供了多种选择。在哪些特殊情况下,每种情况都变得最佳/理想? 如在Koenker(1994)中所述,“等级”通过反转等级检验产生估计参数的置信区间。默认选项假定错误是iid,而选项iid = FALSE则实施了Koenker Machado(1999)的建议。有关其他参数,请参见rq.fit.br的文档。 假定误差为iid的“ iid”,如KB(1978)所示,计算渐近协方差矩阵的估计。 假定条件分位数函数的局部(以τ为单位)线性(以x为单位)并使用稀疏性的局部估计来计算Huber三明治估计的“ nid”。 “ ker”使用Powell(1990)提出的三明治的核估计。 “ boot”实现了几种可能的用于估计标准错误的自举选项之一。 我已经阅读了至少20篇经验论文,无论是在时间序列还是在横截面尺寸上都应用了该论文,还没有提到标准误差的选择。


4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

3
为什么不报告引导分布的平均值?
当一个自举参数获取标准误差时,我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢?分布不应该近似真实分布吗?因此,我们将对“真实”价值有一个很好的估计吗?但是,我们报告了从样本中获得的原始参数。这是为什么? 谢谢

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …


3
如何计算NPS(净发起人得分)结果中的误差幅度?
我将让Wikipedia解释如何计算NPS: 通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分,其中“极有可能”是10,“完全没有可能”是0:“您向我们推荐公司的可能性有多大?朋友还是同事?” 根据他们的回答,客户可分为三类之一:促销员(9-10级),被动员(7-8级)和批评者(0-6级)。然后从促进者的百分比中减去批评者的百分比,以获得净促进者得分(NPS)。NPS可以低至-100(每个人都是破坏者)或高至+100(每个人都是启动子)。 几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要(如果有)。 如果这真的太困难了,那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”(促销者,被动者,批评者)的误差幅度是多少?甚至,如果我只看分数的平均值,将每次调查的数据减少到一个数字,误差幅度是多少?那能带我到任何地方吗? 这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.