统计和大数据 standard-error

15

计算标准偏差时用除的直观解释？

我今天问类，为什么你被划分方误差之和，而不是与，计算标准差时。nn − 1n−1n-1ñnn 我说过我不会在课堂上回答它（因为我不想进入无偏估计量），但后来我想知道- 为此有一个直观的解释吗？

136 standard-error intuition teaching bessels-correction

3

回归中如何计算系数的标准误差？

就我自己的理解而言，我有兴趣手动复制估算系数的标准误差的计算，例如，该lm()函数的输出随in一起提供R，但无法将其固定下来。使用的公式/实现是什么？

114 r regression standard-error lm

4

标准误差和标准偏差之间的差异

我正在努力理解标准误差和标准偏差之间的区别。它们有什么不同？为什么需要测量标准误差？

96 mean standard-deviation standard-error intuition

3

示例：使用glmnet获得二进制结果的LASSO回归

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

线性回归中预测值的置信区间形状

我注意到，线性回归中预测值的置信区间在预测器的平均值附近趋于狭窄，在预测器的最小值和最大值附近趋于胖。这可以从以下4个线性回归的图中看出：我最初认为这是因为大多数预测变量的值都集中在预测变量的均值附近。但是，我然后注意到，即使许多的值集中在预测变量的极值附近，也会出现置信区间的狭窄中间，如左下方线性回归所示，预测变量的哪些值集中在预测值的最小值附近。预测变量。有谁能解释为什么线性回归预测值的置信区间在中间趋于狭窄而在极端处趋于肥胖？

69 regression confidence-interval linear-model standard-error prediction-interval

6

使用R进行套索预测的标准误差

我正在尝试使用LASSO模型进行预测，并且需要估算标准误差。肯定有人已经编写了一个软件包来执行此操作。但是据我所知，使用LASSO进行预测的CRAN程序包都不会返回这些预测的标准错误。所以我的问题是：是否有可用的软件包或一些R代码来计算LASSO预测的标准误差？

60 r standard-error prediction lasso

4

二项式随机变量样本均值的标准误

假设我正在运行一个可能有2个结果的实验，并且我假设2个结果的基本“真实”分布是参数和的二项式分布：。p B i n o m i a l（n ，p ）ññnpppB i n o m i a l（n，p）Binomial(n,p）{\rm Binomial}(n, p) 我可以根据的方差形式计算标准误差：其中。因此，。对于标准错误，我得到：，但是我在某处看到。我做错了什么？乙我Ñø米我一升（Ñ，p）σ2X=Ñpqq=1-pσX=√小号ËX= σXñ√SEX=σXñSE_X = \frac{\sigma_X}{\sqrt{n}}B i n o m i a l（n，p）乙一世ñØ米一世一种升（ñ，p）{\rm Binomial}(n, p)σ2X= n p qσX2=ñpq \sigma^{2}_{X} = npqq= 1 − pq=1个-pq = 1-p SEX= √σX= n p …

44 binomial standard-error

1

分位数回归：哪些标准误差？

summary.rq来自quantreg插图的功能为分位数回归系数的标准误差估计提供了多种选择。在哪些特殊情况下，每种情况都变得最佳/理想？如在Koenker（1994）中所述，“等级”通过反转等级检验产生估计参数的置信区间。默认选项假定错误是iid，而选项iid = FALSE则实施了Koenker Machado（1999）的建议。有关其他参数，请参见rq.fit.br的文档。假定误差为iid的“ iid”，如KB（1978）所示，计算渐近协方差矩阵的估计。假定条件分位数函数的局部（以τ为单位）线性（以x为单位）并使用稀疏性的局部估计来计算Huber三明治估计的“ nid”。 “ ker”使用Powell（1990）提出的三明治的核估计。 “ boot”实现了几种可能的用于估计标准错误的自举选项之一。我已经阅读了至少20篇经验论文，无论是在时间序列还是在横截面尺寸上都应用了该论文，还没有提到标准误差的选择。

35 r standard-error quantile-regression estimators

3

什么是残留标准误差？

在R中运行多元回归模型时，输出之一是在95,161自由度上的残留标准误差0.0589。我知道95161自由度是由样本中的观察数与模型中的变量数之差得出的。残留标准误差是多少？

35 regression standard-error residuals

4

R中的标准错误聚类（手动或plm）

我试图理解标准错误“聚类”以及如何在R中执行（在Stata中是微不足道的）。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

33 r panel-data standard-error fixed-effects-model clustered-standard-errors

3

为什么不报告引导分布的平均值？

当一个自举参数获取标准误差时，我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢？分布不应该近似真实分布吗？因此，我们将对“真实”价值有一个很好的估计吗？但是，我们报告了从样本中获得的原始参数。这是为什么？谢谢

30 distributions bootstrap standard-error expected-value

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

R：尽管数据集中没有NaN，随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]

我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN，Inf或NA。但是，当运行随机森林时，我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

将标准误差转换为标准偏差？

将标准误差转换为标准偏差是否明智？如果是这样，此公式是否合适？ SE=SDN−−√SE=SDNSE = \frac{SD}{\sqrt{N}}

26 standard-deviation standard-error

3

如何计算NPS（净发起人得分）结果中的误差幅度？

我将让Wikipedia解释如何计算NPS：通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分，其中“极有可能”是10，“完全没有可能”是0：“您向我们推荐公司的可能性有多大？朋友还是同事？” 根据他们的回答，客户可分为三类之一：促销员（9-10级），被动员（7-8级）和批评者（0-6级）。然后从促进者的百分比中减去批评者的百分比，以获得净促进者得分（NPS）。NPS可以低至-100（每个人都是破坏者）或高至+100（每个人都是启动子）。几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要（如果有）。如果这真的太困难了，那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”（促销者，被动者，批评者）的误差幅度是多少？甚至，如果我只看分数的平均值，将每次调查的数据减少到一个数字，误差幅度是多少？那能带我到任何地方吗？这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力！

21 hypothesis-testing statistical-significance standard-error multinomial nps

Questions tagged «standard-error»