我运行了一个xgboost模型。我不完全知道如何解释的输出xgb.importance
。
增益,覆盖率和频率的含义是什么,我们如何解释它们?
另外,Split,RealCover和RealCover%是什么意思?我在这里有一些额外的参数
还有其他参数可以告诉我有关功能重要性的更多信息吗?
从R文档中,我了解到“增益”类似于“信息增益”,“频率”是在所有树中使用某个功能的次数。我不知道什么是Cover。
我运行了链接中给出的示例代码(并且还尝试对我正在处理的问题进行相同的操作),但是在那里给出的拆分定义与我计算出的数字不匹配。
importance_matrix
输出:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05