Questions tagged «skewness»

偏度度量(或指代)变量分布中的不对称程度。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


6
有人可以提供偏态为零但不对称的单峰分布的示例吗?
在2010年5月,维基百科用户Mcorazao在偏度文章中添加了一个句子:“零值表示这些值在平均值的两侧相对均匀地分布,通常但不一定意味着对称分布。” 但是,Wiki页面没有实际的发行示例,可以打破此规则。至少在前20个结果中,谷歌搜索“具有零偏度的示例非对称分布”也没有给出任何实际示例。 使用这样的定义,偏斜由和R计算得出式E[(X−μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] sum((x-mean(x))^3)/(length(x) * sd(x)^3) 我可以构造一个小的任意分布以降低偏度。例如,分布 x = c(1, 3.122, 5, 4, 1.1) 产生的偏斜。但这是一个很小的样本,而且与对称性的偏差也不大。因此,是否可以使用一个高度不对称但仍具有接近零偏度的峰构造一个更大的分布?−5.64947⋅10−5−5.64947⋅10−5-5.64947\cdot10^{-5}


3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
偏态分布的异常值检测
根据离群点的经典定义,即数据点位于上四分位数或下四分位数的1.5 * IQR范围之外,假设存在非偏态分布。对于偏斜分布(指数分布,泊松分布,几何分布等),通过分析原始函数的变换是否是检测异常值的最佳方法? 例如,松散地由指数分布控制的分布,可以使用对数函数进行转换-在什么时候可以基于相同的IQR定义查找异常值?

2
如何处理测试集和训练集的分布之间的差异?
我认为机器学习或参数估计的一个基本假设是,看不见的数据来自与训练集相同的分布。但是,在某些实际情况下,测试集的分布几乎与训练集不同。 说一个大规模的多分类问题,试图将产品描述分类为大约17,000个类别。训练集将具有高度偏斜的上课先验,因此某些班级可能有很多训练示例,但有些班级可能只有几个。假设我们从客户端获得了带有未知类标签的测试集。我们尝试使用在训练集上训练的分类器,将测试集中的每个产品分类为17,000个类别之一。测试集可能具有偏斜的班级分布,但可能与培训集的分布有很大差异,因为它们可能与不同的业务领域相关。如果两个类别的分布非常不同,则训练有素的分类器可能无法在测试集中很好地工作。对于朴素贝叶斯分类器,这似乎尤其明显。 是否有任何原则上的方法来处理概率分类器的训练集和特定给定测试集之间的差异?我听说“转换式SVM”在SVM中做类似的事情。是否有类似的技术来学习在特定给定测试集上表现最佳的分类器?然后,我们可以针对此给定的测试集重新训练分类器,如本实际方案中所允许的那样。

4
如何判断我的数据分布是否对称?
我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。)

12
负偏度分布的真实示例
受到“ 常见分布的真实示例 ”的启发,我想知道人们使用哪些教学示例来显示负偏度?教学中使用了许多对称或正态分布的“规范”示例-即使身高和体重这样的分布无法通过更严格的生物学检查而幸免!血压可能接近正常。我喜欢天文学的测量误差-具有历史意义,从直觉上讲,它们不太可能朝一个方向倾斜,而小的误差比大的误差更大。 关于正偏度的常见教学示例包括人们的收入。待售二手车的里程;心理学实验中的反应时间;房价 保险客户的事故索赔数量;一个家庭中孩子的数量。它们的物理合理性通常源于低于(通常为零)的界限,低值是合理的,甚至很常见,但众所周知,却会出现很大的值(有时高出几个数量级)。 对于负偏斜,我发现很难给出年轻观众(高中生)可以直观理解的清晰生动的示例,这也许是因为较少的现实生活分布具有明确的上限。我在学校教的一个不好的例子是“手指数”。大多数人有十个人,但有些人在一次事故中丧生一个或多个。结果是“ 99%的人的手指数高于平均数”!多义性使问题复杂化,因为十不是严格的上限。由于缺少手指和多余手指都是罕见的事件,因此对于学生可能尚不清楚哪个影响占主导地位。 我通常使用高的二项式分布。但是,学生通常会发现“一批中令人满意的组件数量出现负偏斜”不如“一批中的故障组件数量呈正偏斜”这一补充事实那么直观。(这本教科书是工业主题的;我更喜欢在十二个盒子中装满裂纹和完整的鸡蛋。)也许学生觉得“成功”应该很少见。ppp 另一个选择是指出,如果呈正偏,则呈负偏,但将其置于实际情况下(“负房价呈负偏”)似乎注定会导致教学上的失败。虽然教数据转换的效果是有好处的,但首先给出一个具体的例子似乎是明智的。我更喜欢一个似乎不是人为的,负偏斜非常明确,并且学生的生活经历应该使他们意识到分布形状的人。− XXXX−X-X-X

4
转化以增加正常rv的峰度和偏度
我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。

3
如何通过箱线图评估偏度?
如何查看通过此数据构建的箱线图来确定偏度: 340、300、520、340、320、290、260、330 一本书说:“如果下四分位数比中四分位数比中四分位数更远,则分布出现负偏斜。” 其他一些消息来源也大致相同。 我使用R建立了箱形图。如下所示: 我认为它是负偏斜的,因为较低的四分位数距离中位数比较高的四分位数更远。但是问题是当我使用另一种方法确定偏度时: 平均值(337.5)>中位数(325) 这表明数据正偏。我错过了什么?



3
高度偏斜数据的t检验
我有一个包含成千上万次医疗费用数据观察值的数据集。该数据向右偏斜,并且有很多零。对于两组人来说看起来像这样(在这种情况下,这两个年龄段每个> 3000 obs): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 如果我对此数据执行Welch的t检验,我会得到一个结果: Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.