Questions tagged «standard-error»

指从样本计算出的统计数据的样本分布的标准偏差。在形成置信区间或检验关于抽样统计数据的总体的假设时,通常需要标准误差。

3
中位数的标准误
如果我想在非正态分布的小样本(我正在使用python)的情况下测量中位数的标准误差,以下公式正确吗? sigma=np.std(data) n=len(data) sigma_median=1.253*sigma/np.sqrt(n)

3
为什么这个摘录说标准偏差的无偏估计通常不相关?
我正在阅读标准偏差的无偏估计的计算方法以及我所阅读的资料 (...)除非在某些重要情况下,否则该任务与统计的应用几乎没有关系,因为通过标准程序(例如,使用显着性检验和置信区间或使用贝叶斯分析)可以避免执行此任务。 我想知道是否有人可以阐明该语句背后的原因,例如,置信区间不是将标准差用作计算的一部分吗?因此,置信区间不会受到标准偏差的影响吗? 编辑: 到目前为止,谢谢您的回答,但是我不确定我是否遵循它们的某些推理,因此我将添加一个非常简单的示例。关键是,如果源是正确的,那么从我的结论到示例,都出了点问题,我希望有人指出p值如何不依赖于标准偏差。 假设研究人员希望测试他或她所在城市的五年级学生的平均分数是否与全国平均值76分(显着性水平为0.05)不同。研究人员随机抽取了20名学生的分数。样本平均值为80.85,样本标准偏差为8.87。这意味着:t =(80.85-76)/(8.87 / sqrt(20))= 2.44。然后使用t表计算以19 df在2.44时的2尾概率值为0.025。这低于我们的显着性水平0.05,因此我们拒绝零假设。 因此,在此示例中,p值(也许还有您的结论)是否会根据您估计样本标准偏差的方式而改变?

2
计数标准误
我有按罕见疾病季节划分的事件案例数据集。例如,假设春季有180例,夏季有90例,秋季有45例,冬季有210例。我正在努力将标准错误附加到这些数字上是否合适。就我们正在寻找将来可能再次发生的疾病发病率的季节性模式而言,研究目标具有推论性。因此,直观地感觉到应该有可能将不确定性的度量附加到总数上。但是,我不确定在这种情况下如何计算标准误,因为我们处理的是简单的计数而不是均值或比例。 最后,答案是否取决于数据代表病例总数(曾经发生过的每个病例)还是随机样本?如果我没记错的话,由于没有推断,通常用人口统计数据来表示标准错误是没有意义的。

4
后续行动:在ANOVA图表之间的混合内,估计的SE或实际的SE?
我目前正在整理一篇论文,从昨天开始偶然发现了这个问题,这使我向自己提出了同样的问题。更好地为我的图表提供来自数据的实际标准误差还是由ANOVA估算的误差? 由于昨天的问题相当具体,我的问题相当具体,我认为提出这个后续问题是适当的。 详细信息: 我已经在某个认知心理学领域(条件推理)中进行了一项实验,将两组(归纳和演绎指令,即受试者之间的操作)与两个受试者内部的操作(问题的类型和问题的内容)进行了比较。两个因素水平)。 结果看起来像这样(左侧面板显示的是ANOVA输出的SE值,右侧面板显示的是根据数据估算的SEs): 请注意,不同的行代表两个不同的组(即,对象间操作),而内部在x轴(即2x2因子水平)上绘制受试者操作。 在本文中,我提供了方差分析的相应结果,甚至提供了中间关键交叉交互的计划比较。SE在那里为读者提供了有关数据可变性的一些提示。我更倾向于使用SE,而不是标准偏差和置信区间,因为绘制SD并不常见,并且在比较对象之间和对象之间的CI时存在严重问题(因为肯定适用于SE,错误地推断出显着差异的情况并不常见从他们)。 重复我的问题:绘制从ANOVA估计的SE是更好还是我应该绘制从原始数据估计的SE? 更新: 我认为我应该对SE的估算值更加清楚。SPSS中的ANOVA输出为我estimated marginal means提供了相应的SE和CI。这是在左图中绘制的内容。据我了解,它们应该是残差的标准差。但是,当保存残差时,它们的SD不会以某种方式接近估计的SE。因此,一个次要的(可能是特定于SPSS的问题)将是:这些SE是 什么? 更新2:我终于设法编写了一个R函数,该函数应该能够像我最终喜欢的那样自行绘制(请参见我接受的答案)。如果有人有时间,如果您可以看一下,我将不胜感激。这里是。

4
为什么说“残留标准误差”?
标准误差是估计的标准偏差σ(θ)的估计的θ为参数θ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta 为什么将残差的估计标准偏差称为“残差标准误差”(例如,在R summary.lm函数的输出中)而不称为“残差标准差”?我们在此为什么参数估计配备标准误差? 我们是否将每个残差都视为“其”误差项的估计量,并估计所有这些估计量的“合并”标准误差?

1
将标准化的beta转换回原始变量
我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗?

1
为什么截距的标准
截距项的标准误差(β 0)在Ŷ = β 1 X + β 0 + ε由下式给出小号È (β 0 )2 = σ 2 [ 1β^0β^0\hat{\beta}_0y=β1x+β0+εy=β1x+β0+εy=\beta_1x+\beta_0+\varepsilon 其中ˉX是平均的X我的。SE(β^0)2=σ2[1n+x¯2∑ni=1(xi−x¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]x¯x¯\bar{x}xixix_i 据我了解,在SE量化你的uncertainty-例如,在样本的95%,区间将包含真实β 0。我不明白的SE,不确定性的度量,如何与增加ˉ X。如果我只是转移我的数据,使ˉ X = 0,我的不确定性下降?那似乎是不合理的。[β^0−2SE,β^0+2SE][β^0−2SE,β^0+2SE][\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]β0β0\beta_0x¯x¯\bar{x}x¯=0x¯=0\bar{x}=0 类似的解释是-在我的数据的非中心版本对应于我的预测在X = 0,而在中心的数据,β 0对应于我的预测在X = ˉ X。那么,这是否意味着,然后我讲我在预测的不确定性X = 0比我对我的预测在不确定性较大的X = ˉ X?这似乎也是不合理的,对于所有x值,误差ϵ具有相同的方差β^0β^0\hat{\beta}_0x=0x=0x=0β^0β^0\hat{\beta}_0x=x¯x=x¯x=\bar{x}x=0x=0x=0x=x¯x=x¯x=\bar{x}ϵϵ\epsilonxxx,所以我对所有预测值的不确定性都应该相同。xxx 我敢肯定,我的理解存在差距。有人可以帮助我了解发生了什么吗?

1
在R中没有lm对象的情况下计算Newey-West标准误差
我昨天在StackOverflow上问了这个问题,并得到了答案,但我们同意,它似乎有点骇人听闻,并且也许有一种更好的方法来查看它。 问题:我想计算向量(在本例中为股票收益向量)的Newey-West(HAC)标准误差。该功能NeweyWest()在sandwich包这样做,但需要一个lm对象作为输入。Joris Meys提供的解决方案是将向量投影到1上,这会将我的向量转换为残差并馈入NeweyWest()。那是: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 均值的方差。 我应该这样吗?还是有一种方法可以更直接地做我想做的事情?谢谢!

3
添加系数以获得交互作用-SE怎么办?
我有一个多元回归,其中包括相互作用。例如,要估算最差的五分位数的治疗效果,我需要将来自治疗回归指标的系数与来自交互变量(与治疗和五分位数1相互作用)的系数相加。通过回归将两个系数相加时,如何获得标准误差?是否可以将两个系数的标准误差相加?那t统计呢?是否可以添加这些?我猜不是,但是我找不到任何指导。 提前非常感谢您的帮助!

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
求蒙特卡罗模拟估计的精度
背景 我正在设计一个结合了一系列模型输出的蒙特卡洛模拟,并且我想确保该模拟将使我能够对模拟结果的概率和该概率估计的精度提出合理的要求。 模拟将发现从特定社区招募的陪审团将某被告定罪的可能性。这些是模拟步骤: 使用现有数据,通过对人口预测变量上的“初选投票”进行回归,生成逻辑概率模型(M)。 使用蒙特卡洛方法模拟M的 1,000个版本(即,模型参数的系数的1000个版本)。 选择模型的1,000个版本之一(M i)。 Empanel 1,000陪审团通过从具有特定人口特征分布的个人“社区”(C)中随机选择1,000组12个“陪审员”来进行。 使用M i确定性地计算每个陪审员第一次有罪表决的概率。 将每个“陪审员”的可能的票数投给确定票(根据票数是大于还是小于0-1之间的随机选择值)。 通过使用陪审团定罪的概率模型(从经验数据得出)来确定每个“陪审团”的“最终投票”,条件是陪审员在第一次投票中对定罪投票的比例。 存储有1000个陪审团(PG i)的有罪判决的比例。 对M的1,000个模拟版本中的每一个重复步骤3-8 。 计算PG的平均值,并将其报告为C中定罪概率的点估计 。 确定PG的2.5和97.5个百分位数,并将其报告为0.95置信区间。 我目前正在使用1,000名陪审员和1,000名陪审员的理论,即从概率分布(C或M版本的人口统计特征)中抽取1000次随机抽奖将填补该分布。 问题 这将使我能够准确地确定估计的精度吗?如果是这样,我需要为每个PG i计算覆盖几个陪审团,以涵盖C的概率分布(因此避免了选择偏差);我可以使用少于1000个吗? 非常感谢您的帮助!

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
推导标准误差的通用方法
我似乎找不到在任何地方导出标准错误的通用方法。我看过Google,这个网站,甚至在教科书上,但我所能找到的只是平均值,方差,比例,风险比等的标准误差公式,而不是这些公式是如何得出的。 如果有人可以用简单的方式来解释它,或者甚至将我链接到一个很好的资源来解释它,我将不胜感激。

2
误差传播SD与SE
在两个不同的条件下(A和B),我对每个人的性状有3到5个度量。 我绘制平均每个个体在每个条件和我使用标准的误差(即,,其中N=测量次数)作为误差线。小号D / N--√SD/NSD/\sqrt{N}ñNN 现在,我要绘制条件A和条件B中每个人的平均度量之间的差异。我知道我可以确定传播的误差: 但是如何传播标准误差(因为我正在处理测量的平均值)而不是标准偏差?这有道理吗?小号D = Sd2一个+ Sd2乙----------√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2}

1
替代漏斗图,无需使用标准误差(SE)
在提交荟萃分析之前,我想作一个漏斗图以测试异质性和发表偏见。我有合并的效应大小和每个研究的效应大小,它们的取值范围是-1至+1。我有每个研究的患者和对照的样本量n1,n2。由于无法计算标准误差(SE),因此无法执行Egger回归。我不能在垂直轴上使用SE或precision = 1 / SE。 问题 我还能在水平轴突上用效应大小在垂直轴上用总样本大小n(n = n1 + n2)进行漏斗图吗? 这样的漏斗图应如何解释? 一些发表的论文提出了这样的漏斗图,在垂直轴上具有总样本大小(已发布的PMID:10990474、10456970)。同样,维基百科漏斗图维基对此也表示同意。但是,最重要的是,Mathhias Egger在BMJ 1999上的论文(PubMed PMID:9451274)显示了这样的漏斗图,没有SE,只有垂直轴上的样本大小。 更多问题 当标准误差未知时,这样的图可接受吗? 它与标准轴突上SE或presicion = 1 / SE的经典漏斗图相同吗? 它的解释不同吗? 我应该如何设置直线以形成等边三角形?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.