Questions tagged «gini»

基尼系数用于衡量收入不平等和分类器的歧视能力。如果每个人的收入都相同,则Gini系数=0。如果一个人的收入全部,则Gini系数=1。所有其他值介于两者之间。

2
GINI得分与对数似然比之间的关系是什么
我正在研究分类树和回归树,拆分位置的一种方法是GINI得分。 现在,当两个分布之间相同数据的似然比的对数为零时,我习惯于确定最佳分割位置,这意味着隶属的可能性同等可能。 我的直觉说,必须存在某种联系,GINI必须在信息数学理论(Shannon)中有良好的基础,但是我对GINI的理解不够深刻,无法自己得出这种关系。 问题: GINI杂质评分作为分裂度量的“第一原理”推导是什么? GINI分数与似然比或其他信息理论基础的对数有何关系(香农熵,pdf和交叉熵是其中的一部分)? 参考文献: 加权基尼标准是如何定义的? 分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (已添加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为: H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下,我们得到: H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下: H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

1
Breiman的随机森林是否使用信息增益或Gini指数?
我想知道Breiman的随机森林(R randomForest包中的随机森林)是用作分割标准(属性选择标准)还是信息增益或基尼系数?我试图在http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm以及R中randomForest包的文档中找到它。但是我发现的唯一发现是,可以将Gini索引用于可变重要性计算。

1
洛格洛斯vs基尼/奥克
我已经训练了两个模型(使用h2o AutoML的二进制分类器),我想选择一个模型。我得到以下结果: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 的auc和logloss列是交叉验证指标(交叉验证仅使用训练数据)。在..._train和..._valid指标分别由通过模型运行训练和验证指标发现。我想使用logloss_valid或gini_valid选择最佳模型。 模型1具有更好的基尼系数(即更好的AUC),而模型2具有更好的对数损失。我的问题是选择哪一个我认为是问题,使用基尼(AUC)或对数损失作为决策指标的优点/缺点是什么?


1
GINI和AUC曲线解释之间有什么区别?
我们过去常常使用在计分卡建模的好坏百分比的帮助下创建的提升来创建GINI曲线。但是我研究过的ROC曲线是使用以特异性(1- True Negative)为x轴和灵敏度(true positive)为Y轴的Confusion矩阵创建的。 因此,GINI和ROC的结果相同,唯一的不同是后者也考虑了一致性和不一致值(TP,FP,FN,TN)。
13 roc  gini 

3
区别在于摘要统计:基尼系数和标准偏差
有几个摘要统计信息。当您要描述分布的分布时,可以使用例如标准差或基尼系数。 我知道标准偏差是基于中心趋势,即与均值的偏差,基尼系数是色散的一般度量。我也知道,基尼系数具有上限和下限[0 1],而标准偏差则没有。这些属性是很好知道的,但是标准偏差可以提供哪些见解,使基尼无法做到,反之亦然?如果我不得不选择使用两者之一,那么在提供信息和洞察力方面,与另一种相比使用一种优势是什么?

4
试图在StackOverflow信誉分布上计算Gini指数?
我正在尝试使用SO Data Explorer在SO信誉分布上计算基尼系数。我要实现的方程式是: 其中: =网站上的用户数; =用户序列号(1-225,000); =用户信誉。niyi我ģ (小号)= 1n − 1( Ñ + 1 - 2 (Σñ我= 1(n + 1 - i )y一世∑ñ我= 1ÿ一世))G(S)=1n−1(n+1−2(∑i=1n(n+1−i)yi∑i=1nyi)) G(S)=\frac{1}{n-1}\left(n+1-2\left(\frac{\sum^n_{i=1}(n+1-i)y_i}{\sum^n_{i=1}y_i}\right)\right) ñnn一世iiÿ一世yiy_i一世ii 这就是我的实现方式(从此处复制): DECLARE @numUsers int SELECT @numUsers = COUNT(*) FROM Users DECLARE @totalRep float SELECT @totalRep = SUM(Users.Reputation) FROM Users DECLARE @giniNominator float SELECT @giniNominator …
11 gini 

1
基尼系数和误差范围
我有一个时间序列的数据,每个时间点的N = 14个计数,我想在每个时间点计算此估计的基尼系数和标准误差。 由于我在每个时间点只有N = 14个计数,因此我通过计算折刀方差来进行计算,即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^(Ñ,ķ)是N个值的无元件的基尼系数ķ和 ˉ ģ(X)是平均的的G ^(Ñ,ķ)。变种(G )= n − 1ñ× ∑ñk = 1(G (n ,k )− G¯(n ))2变种⁡(G)=ñ-1个ñ×∑ķ=1个ñ(G(ñ,ķ)-G¯(ñ))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n ,k )G(ñ,ķ)G(n,k)ķķkG¯(x )G¯(X)\bar{G}(x)G (n ,k )G(ñ,ķ)G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

5
如何测量词频数据中的离散度?
如何量化字数向量中的离散量?我正在寻找一种统计数据,该统计数据对于文档A而言会很高,因为它包含许多不经常出现的单词,而对于文档B而言却很低,因为它包含一个经常出现的单词(或几个单词)。 更一般而言,如何测量名义数据中的离散或“扩散”? 文本分析社区中是否有标准的方法?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.