统计和大数据 gini

2

我正在研究分类树和回归树，拆分位置的一种方法是GINI得分。现在，当两个分布之间相同数据的似然比的对数为零时，我习惯于确定最佳分割位置，这意味着隶属的可能性同等可能。我的直觉说，必须存在某种联系，GINI必须在信息数学理论（Shannon）中有良好的基础，但是我对GINI的理解不够深刻，无法自己得出这种关系。问题： GINI杂质评分作为分裂度量的“第一原理”推导是什么？ GINI分数与似然比或其他信息理论基础的对数有何关系（香农熵，pdf和交叉熵是其中的一部分）？参考文献：加权基尼标准是如何定义的？分类和回归树背后的数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf （已添加） http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity 香农的熵描述为： H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) 将其扩展到多元情况下，我们得到： H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件熵的定义如下： H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(X|Y)=Σyp(x,y)logb⁡p(x)p(x,y)or,H(X|Y)=H(X,Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

21 cart likelihood-ratio information-theory kullback-leibler gini

1

Breiman的随机森林是否使用信息增益或Gini指数？

我想知道Breiman的随机森林（R randomForest包中的随机森林）是用作分割标准（属性选择标准）还是信息增益或基尼系数？我试图在http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm以及R中randomForest包的文档中找到它。但是我发现的唯一发现是，可以将Gini索引用于可变重要性计算。

15 r random-forest entropy gini

1

洛格洛斯vs基尼/奥克

我已经训练了两个模型（使用h2o AutoML的二进制分类器），我想选择一个模型。我得到以下结果： model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 的auc和logloss列是交叉验证指标（交叉验证仅使用训练数据）。在..._train和..._valid指标分别由通过模型运行训练和验证指标发现。我想使用logloss_valid或gini_valid选择最佳模型。模型1具有更好的基尼系数（即更好的AUC），而模型2具有更好的对数损失。我的问题是选择哪一个我认为是问题，使用基尼（AUC）或对数损失作为决策指标的优点/缺点是什么？

15 model-selection validation auc gini log-loss

1

为什么使用归一化基尼分数代替AUC作为评估？

Kaggle的比赛Porto Seguro的“安全驾驶员预测”使用“标准化基尼分数”作为评估指标，这让我很好奇这种选择的原因。使用规范化的gini得分代替最常用的指标（如AUC）进行评估有什么优势？

14 classification auc model-evaluation gini

1

GINI和AUC曲线解释之间有什么区别？

我们过去常常使用在计分卡建模的好坏百分比的帮助下创建的提升来创建GINI曲线。但是我研究过的ROC曲线是使用以特异性（1- True Negative）为x轴和灵敏度（true positive）为Y轴的Confusion矩阵创建的。因此，GINI和ROC的结果相同，唯一的不同是后者也考虑了一致性和不一致值（TP，FP，FN，TN）。

13 roc gini

3

区别在于摘要统计：基尼系数和标准偏差

有几个摘要统计信息。当您要描述分布的分布时，可以使用例如标准差或基尼系数。我知道标准偏差是基于中心趋势，即与均值的偏差，基尼系数是色散的一般度量。我也知道，基尼系数具有上限和下限[0 1]，而标准偏差则没有。这些属性是很好知道的，但是标准偏差可以提供哪些见解，使基尼无法做到，反之亦然？如果我不得不选择使用两者之一，那么在提供信息和洞察力方面，与另一种相比使用一种优势是什么？

12 standard-deviation descriptive-statistics gini

4

试图在StackOverflow信誉分布上计算Gini指数？

我正在尝试使用SO Data Explorer在SO信誉分布上计算基尼系数。我要实现的方程式是：其中： =网站上的用户数； =用户序列号（1-225,000）； =用户信誉。niyi我ģ （小号）= 1n − 1（ Ñ + 1 - 2 （Σñ我= 1（n + 1 - i ）y一世∑ñ我= 1ÿ一世））G(S)=1n−1(n+1−2(∑i=1n(n+1−i)yi∑i=1nyi)) G(S)=\frac{1}{n-1}\left(n+1-2\left(\frac{\sum^n_{i=1}(n+1-i)y_i}{\sum^n_{i=1}y_i}\right)\right) ñnn一世iiÿ一世yiy_i一世ii 这就是我的实现方式（从此处复制）： DECLARE @numUsers int SELECT @numUsers = COUNT(*) FROM Users DECLARE @totalRep float SELECT @totalRep = SUM(Users.Reputation) FROM Users DECLARE @giniNominator float SELECT @giniNominator …

11 gini

1

基尼系数和误差范围

我有一个时间序列的数据，每个时间点的N = 14个计数，我想在每个时间点计算此估计的基尼系数和标准误差。由于我在每个时间点只有N = 14个计数，因此我通过计算折刀方差来进行计算，即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^（Ñ，ķ）是N个值的无元件的基尼系数ķ和 ˉ ģ（X）是平均的的G ^（Ñ，ķ）。变种（G ）= n − 1ñ× ∑ñk = 1（G （n ，k ）− G¯（n ））2变种⁡（G）=ñ-1个ñ×∑ķ=1个ñ（G（ñ，ķ）-G¯（ñ））2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G （n ，k ）G（ñ，ķ）G(n,k)ķķkG¯（x ）G¯（X）\bar{G}(x)G （n ，k ）G（ñ，ķ）G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

11 r variance econometrics resampling gini

5

如何测量词频数据中的离散度？

如何量化字数向量中的离散量？我正在寻找一种统计数据，该统计数据对于文档A而言会很高，因为它包含许多不经常出现的单词，而对于文档B而言却很低，因为它包含一个经常出现的单词（或几个单词）。更一般而言，如何测量名义数据中的离散或“扩散”？文本分析社区中是否有标准的方法？

10 variance natural-language gini dispersion bag-of-words

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

Questions tagged «gini»