Questions tagged «kurtosis»

分布或数据集的归一化第四矩。

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
转化以增加正常rv的峰度和偏度
我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。



5
我们应该在应用统计学课程中教授峰度吗?如果是这样,怎么办?
至少在直观的基础上,可以相对较好地定义中心趋势,散布和偏斜;这些事物的标准数学度量也相对符合我们的直觉概念。但是峰度似乎有所不同。这非常令人困惑,并且与关于分布形状的任何直觉都不太匹配。 应用环境中峰度的典型解释是使用Microsoft Excel [ 1 ]从商业和管理应用统计中摘录的内容:[1][1]^{[1]} 峰度是指分布的峰值程度或相反的平坦度。如果尾部的数据值多于正态分布的期望值,则峰度为正。相反,如果尾部的数据值少于正态分布中的预期,则峰度为负。除非您至少有四个数据值,否则Excel无法计算此统计信息。 除了“峰度”和“峰度过高”(在本书中,通常使用前者指其他作者称为后者)之间的混淆之外,还用“峰度”或“平坦度”来解释。然后将注意力转移到尾部有多少个数据项上。同时考虑“峰”和“尾”是必要的— Kaplansky [ 2 ][2][2]^{[2]}1945年抱怨说,当时的许多教科书错误地指出峰度与分配峰相比正常分布峰有多高有关,而没有考虑尾部。但是显然必须同时考虑峰的顶部和尾部的形状,这使得直觉更难掌握,上面引述的摘录通过将尾部的峰度和重度相提并论,好像这些概念相同,从而跳过了这一点。 此外,对峰度的这种经典的“峰尾”解释仅适用于对称和单峰分布(实际上,该文本中所示的示例都是对称的)。然而,解释峰度的“正确”通用方法,无论是用“峰”,“尾巴”还是“肩”,都已经争议了数十年。[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6][2][3][4][5][6]^{[2][3][4][5][6]} 是否有一种直观的方法来在应用的环境中教授峰度,当采用更严格的方法时不会出现矛盾或反例?在这类应用数据分析课程中,峰度甚至在数学统计课中都什至是一个有用的概念吗?如果分布的“峰值”是一个直观上有用的概念,我们是否应该通过L矩[ 7 ]来教授它?[7][7]^{[7]} [1][1][1] Herkenhoff,L.和Fogli,J.(2013)。使用Microsoft Excel进行业务和管理的应用统计。纽约,纽约:施普林格。 [2][2][2]卡普兰斯基,I。(1945)。“有关峰度的常见错误”。 美国统计协会杂志,40(230):259。 [3][3][3]达林顿,理查德·B(1970)。“峰变真的是'峰顶'吗?”。美国统计学家 24(2):19-22 [4][4][4]摩尔,JJA。(1986)“峰度的含义:达林顿重新审查”。美国统计学家 40(4):283–284 [5][5][5] Balanda,Kevin P.和MacGillivray,HL(1988年)。“ 峰度:评论综述”。美国统计学家 42(2):111–119 [6][6][6] DeCarlo,LT(1997)。“ 关于峰度的含义和使用 ”。心理方法,2(3),292。芝加哥 [7][7][7] Hosking,JRM(1992)。“矩还是L矩?比较两个分布形状量度的示例”。美国统计学家46(3):186–189

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
指数加权移动偏度/峰度
有众所周知的在线公式,用于计算过程的指数加权移动平均值和标准偏差。意思是(xn)n=0,1,2,…(xn)n=0,1,2,…(x_n)_{n=0,1,2,\dots} μn=(1−α)μn−1+αxnμn=(1−α)μn−1+αxn\mu_n = (1-\alpha) \mu_{n-1} + \alpha x_n 对于差异 σ2n=(1−α)σ2n−1+α(xn−μn−1)(xn−μn)σn2=(1−α)σn−12+α(xn−μn−1)(xn−μn)\sigma_n^2 = (1-\alpha) \sigma_{n-1}^2 + \alpha(x_n - \mu_{n-1})(x_n - \mu_n) 从中可以计算标准偏差。 在线计算加权的第三和第四中心矩有相似的公式吗?我的直觉是,他们应该采取以下形式 M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M_{3,n} = (1-\alpha) M_{3,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1}) 和 M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M_{4,n} = (1-\alpha) M_{4,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1},M_{3,n},M_{3,n-1}) 从中可以计算出偏度和峰度但我无法找到简单的封闭式-函数f和g的形式表达式。 ķ Ñ = 中号4 ,Ñ / σ 4 Ñ ˚F 克γn=M3,n/σ3nγn=M3,n/σn3\gamma_n = M_{3,n} …

3
为什么高阳性峰度对于假设检验有问题?
我听说过(抱歉,我无法提供到文本的链接,有人告诉我)对于正确的假设检验和置信区间,残差的高正峰度可能会成问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?(如果您有答案,请尝试在数学方面不多的情况下给出答案,因为我不太喜欢数学)。



2
对分布均值的瞬间有直觉吗?
有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?pXpXp_X 考虑偏度和峰度的以下定义: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} 在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

2
偏离ANOVA中的正态性假设:峰度或偏度更重要吗?
Kutner等人应用线性统计模型。陈述了以下有关偏离ANOVA模型正态性假设的内容:就推断的影响而言,误差分布的峰度(比正态分布或多或少达到峰值)比分布的偏度更为重要。 我对此声明感到有点困惑,并且没有在书中或在线上找到任何相关信息。我很困惑,因为我还了解到,尾巴较重的QQ曲线表明线性回归模型的正态性假设“足够好”,而偏斜的QQ曲线则更受关注(即,进行转换可能会合适) 。 我是否对ANOVA进行同样的推理,并且对单词的选择(就推理的影响而言更重要)选择得很差,是否正确?也就是说,偏斜的分布会产生更严重的后果,应避免,而少量峰度是可以接受的。 编辑:正如rolando2所说,很难说一个在所有情况下都比另一个更重要,但是我只是在寻找一些一般的见识。我的主要问题是,我被告知,在简单的线性回归中,尾巴较重(=峰度?)的QQ曲线是可以的,因为F检验对此非常有力。另一方面,倾斜的QQ曲线(抛物线形)通常是一个更大的问题。尽管ANOVA模型可以转换为回归模型,并且应该具有相同的假设,但这似乎与我的教科书为ANOVA提供的指导方针直接背道而驰。 我确信我忽略了某件事,或者我有一个错误的假设,但是我无法弄清楚这可能是什么。

3
如何将瘦态分布转变为正态分布?
假设我有一个变数变量,我想将其转换为正态分布。哪些转换可以完成此任务?我很清楚,转换数据可能并不总是理想的,但是作为一项学术追求,假设我想将数据“锤击”到正常状态。此外,从图中可以看出,所有值均严格为正。 我已经尝试了各种转换(我以前见过的几乎所有转换,包括等),但是它们都不能很好地工作。是否有使Leptokurtic分布更正常的众所周知的转换?1X,X−−√,asinh(X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) 请参见下面的示例普通QQ图:

5
分布的峰度与密度函数的几何关系如何?
峰度用于测量分布的峰度和平坦度。分布的密度函数(如果存在)可以视为曲线,并具有与其形状相关的几何特征(例如曲率,凸度等)。 因此,我想知道分布的峰度是否与密度函数的某些几何特征有关,从而可以解释峰度的几何含义?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.