统计学习元素中的表18.1 总结了14个类别数据集上几个分类器的性能。我正在将套索和弹性网的新算法与此类多类分类问题进行比较。
使用glmnet
版本1.5.3(R 2.13.0),我无法复制表中的点7(惩罚的多项式),其中报告使用的基因数量为269,测试错误为13 54。使用的数据是此14癌症微阵列数据集。无论我如何尝试,我都会在170-180个基因附近使用性能最佳的模型,其54个测试错误中的16个。
注意,在654页的18.3节的开头,描述了数据的一些预处理。
我已经联系了作者-到目前为止没有任何回复-请问是否有人可以确认复制表格是否存在问题或提供有关如何复制表格的解决方案。
1
glmnet最近发生了很大的变化,并且过去在数字方面存在一些问题。可能是由于这个原因吗?您联系作者多长时间了?我看到当前版本是1.7,并且仅在大约一周前才上传到CRAN。
—
主教
@cardinal,距离我上一次使用glmnet进行实验以来大约有四个星期,但是我们还有一个不同的实现,产生的结果与ESL中的表不一致。该表肯定较旧,因此我猜测该表不正确,但可以肯定知道。
—
NRH
我非常简要地浏览了这些部分,我想到的一个问题是如何进行交叉验证以选择第661页(18.19)(第三次打印)中的收缩参数。任何想法?也许我错过了它或在其他地方描述了它?这似乎是您尝试重新创建分析的地方可能对方法差异敏感的地方。
—
主教
@cardinal,首先感谢您对此感兴趣。简历可以有所作为是正确的,但作者实际上在网页上拥有用于简历的子集(索引)以及数据。无论如何,CV仅用于选择最佳惩罚参数lambda,然后将整个训练数据集用于拟合模型,然后在测试数据上对其进行评估。因此,即使CV步骤选择了另一个lambda,该lambda仍在训练数据的求解路径上,我们找不到它……
—
NRH