Questions tagged «skewness»

偏度度量(或指代)变量分布中的不对称程度。

3
平均数
我正在处理高度偏斜的数据,因此我使用中位数而不是均值来概括中心趋势。我想测量分散度虽然我经常看到人们报告平均值标准偏差±±\pm或中值四分位数±±\pm以总结中心趋势,但报告中值中值绝对分散度(MAD)±±\pm 是否可以?这种方法是否存在潜在问题? 与报告上下四分位数相比,我会发现这种方法更加紧凑和直观,尤其是在充满数字的大表中。

5
我可以对偏态正常数据进行假设检验吗?
我有一个数据收集,本来以为是正态分布的。然后我实际上查看了一下,意识到不是,主要是因为数据是歪斜的,并且我还进行了shapiro-wilks测试。 我仍然想使用统计方法对其进行分析,因此我想对偏态正态性进行假设检验。 所以我想知道是否有一种方法可以测试偏斜正态性,如果可能的话,还有一个库可以为我做测试。

4
如何最好地分析基于医院的RCT中的住院时间数据?
我很想知道是否存在关于分析来自RCT的住院时间(LOS)数据的最佳方法的共识。这通常是一个非常偏斜的分布,其中大多数患者在几天到一周内出院,但是其余患者的停留时间非常不可预测(有时甚至很长),形成分布的右尾。 分析选项包括: t检验(假设不可能出现正态性) 曼·惠特尼U检验 对数秩检验 组分配的Cox比例风险模型条件 这些方法中的任何一种具有明显更高的功效吗?

1
偏正态分布的参数估计
偏态正态的公式参数估计是什么?如果可以的话,通过MLE或Mom进行派生也将是很棒的。谢谢 编辑。 我有一组数据,可以通过绘图直观地看出这些数据的左侧偏斜。我想估算均值和方差,然后进行拟合优度检验(这就是为什么我需要参数估算值的原因)。我是否以为我只需要猜测偏斜(alpha)(也许做几次偏斜并测试哪种才是最好的?)就对了吗? 我想根据自己的理解来推导MLE,因为我对MLE较熟悉,所以更喜欢MLE。 我不确定是否有多个通用偏斜法线-我只是说一个负偏斜法线!如果可能的话,偏指数幂参数估计也将有所帮助!

2
转换连续变量以进行逻辑回归
我有大量调查数据,一个二进制结果变量和许多解释性变量,包括二进制和连续变量。我正在建立模型集(使用GLM和混合GLM进行实验),并使用信息理论方法来选择顶级模型。我仔细检查了说明(连续的和分类的)之间的相关性,而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低AIC)。 我的第一个问题是:由于变换提高了logit的线性度,所以此改进是否在进行?还是通过使数据更加对称,校正偏斜以某种方式改善了解释变量的平衡?我希望我能理解其背后的数学原因,但就目前而言,如果有人可以轻松地解释这一点,那就太好了。如果您有任何我可以使用的参考,我将不胜感激。 许多互联网网站都说,由于正常性不是二进制逻辑回归的假设,因此请勿变换变量。但是我觉得,通过不对变量进行转换,与其他变量相比,我处于不利地位,这可能会影响顶级模型,并改变推理(好吧,通常不会,但是在某些数据集中会)。我的一些变量在对数转换时性能更好,一些在平方时(偏斜的不同方向),另一些未转换时。 有人可以给我一个指导原则,在为逻辑回归转换解释变量时要注意些什么,如果不这样做,为什么不这样做呢?

1
可视化许多左偏分布
我要显示一系列左偏/重尾分布。有跨越三个因素42个分布(标示为A,B和C下文)。同样,差异也在整个因数间缩小B。 我的问题是,很难在结果的范围(比例或倍数变化)上区分分布: 记录数据似乎过分强调了左偏度,并将更多样本移到尾部(创建了多个离群点): 有人对其他可视化这些数据的技术有建议吗?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
巨大峰度?
我正在对股指的每日收益进行描述性统计。也就是说,如果和分别是第1天和第2天的索引级别,则是我正在使用的收益(文献上完全标准)。P 2P1P1P_1P2P2P_2loge(P2P1)loge(P2P1)log_e (\frac{P_2}{P_1}) 因此,其中的峰度很大。我正在查看大约15年的每日数据(因此大约有时间序列观测值)260∗15260∗15260 * 15 means sds mins maxs skews kurts ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532 AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104 CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205 FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008 HUNGARY -0.00019 0.00880 -0.06301 0.05208 -0.10580 4.20463 IRELAND 0.00003 0.00641 …

3
是否有偏度和峰度的标准化等效项?
与数据具有相同单位的与偏度的归一化等价是什么?同样,标准化的等同于峰度是什么?理想情况下,这些函数相对于数据应该是线性的,这意味着如果将所有观测值乘以一个因子n,则将结果归一化的偏度和峰度将乘以相同的因子n。具有这样的归一化等效项的好处是能够将它们覆盖在标准箱须图的顶部。

2
观察到左偏斜与对称分布
这对我来说很难描述,但我会尽力使我的问题易于理解。因此,首先您必须知道,到目前为止,我已经完成了非常简单的线性回归。在估算系数之前,我先观察了的分布。左偏斜很重。在估算了模型之后,我非常确定会在QQ图中观察到左偏残差,但我绝对没有。此解决方案可能是什么原因?错误在哪里?还是分布与误差项的分布无关?ÿÿyÿÿy

1
我们是否可以始终根据任意分布和对称分布的组成来重写右偏分布?
考虑一个二次可微和对称分布。现在考虑第二个两次可微分布偏斜,其含义是:FXFX\mathcal{F}_XFZFZ\mathcal{F}_Z (1)FX⪯cFZ.(1)FX⪯cFZ.(1)\quad\mathcal{F}_X\preceq_c\mathcal{F}_Z. 其中⪯c⪯c\preceq_c是van Zwet [0]的凸序,因此(1)(1)(1)等效于: (2)F−1ZFX(x) is convex ∀x∈R.(2)FZ−1FX(x) is convex ∀x∈R.(2)\quad F^{-1}_ZF_X(x)\text{ is convex $\forall x\in\mathbb{R}.$} 现在考虑满足以下条件的第三个两次可微分布:FYFY\mathcal{F}_Y (3)FY⪯cFZ.(3)FY⪯cFZ.(3)\quad\mathcal{F}_Y\preceq_c\mathcal{F}_Z. 我的问题是:我们总能找到一个分配和对称分布重写任何 中的一个组成方面(如上定义的所有三种)和 为:FYFY\mathcal{F}_YFXFX\mathcal{F}_XFZFZ\mathcal{F}_ZFXFX\mathcal{F}_XFYFY\mathcal{F}_Y FZ(z)=FYF−1XFY(z)FZ(z)=FYFX−1FY(z)F_Z(z)=F_YF_X^{-1}F_Y(z) 或不? 编辑: 例如,如果是形状参数为3.602349的Weibull(因此它是对称的),而是形状参数为3/2的Weibull分布(因此它是右偏),我懂了F ZFXFX\mathcal{F}_XFZFZ\mathcal{F}_Z maxz|FZ(z)−FYF−1XFY(z)|≈0maxz|FZ(z)−FYFX−1FY(z)|≈0\max_z|F_Z(z)-F_YF_X^{-1}F_Y(z)|\approx 0 通过将为形状参数为2.324553的Weibull分布。请注意,所有三个分布均满足:FYFY\mathcal{F}_Y F−X=FX⪯cFY⪯cFZ,F−X=FX⪯cFY⪯cFZ,\mathcal{F}_{-X}=\mathcal{F}_X\preceq_c\mathcal{F}_Y\preceq_c\mathcal{F}_Z, 根据需要。我不知道这总体上是正确的(在所述条件下)。 [0] van Zwet,WR(1979)。平均值,中位数,模式II(1979)。Statistica Neerlandica。第33卷,第1期,第1--5页。

1
驯服偏斜…为什么偏斜功能这么多?
我希望对该社区的四种偏斜类型有更多的了解。 我所指的类型在http://www.inside-r.org/packages/cran/e1071/docs/skewness帮助页面中有所提及。 帮助页面中未提及旧方法,但尽管如此,我还是将其包括在内。 require(moments) require(e1071) x=rnorm(100) n=length(x) hist(x) ###############type=1 e1071::skewness(x,type=1) sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2) g_1(x) ##from e1071::skewness help moments::skewness(x) ##from e1071::skewness help (sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page ###############type=2 …
9 skewness 

2
PCA或因子分析中的变量偏斜
我想基于22个变量对SPSS进行主成分分析(因子分析)。但是,我的一些变量非常偏斜(根据SPSS计算得出的偏斜范围为2–80!)。 所以这是我的问题: 我应该保留这样的偏斜变量,还是可以在主成分分析中转换变量?如果是,我将如何解释因子得分? 我应该进行哪种类型的转换?log10还是ln? 最初,我的KMO(Kaiser–Meyer–Olkin)为0.413。许多文献建议最小值为0.5。我仍然可以进行因子分析,还是需要删除变量以将我的KMO提高到0.5?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.