复制“统计学习要素”中的表18.1


13

统计学习元素中的表18.1 总结了14个类别数据集上几个分类器的性能。我正在将套索和弹性网的新算法与此类多类分类问题进行比较。

使用glmnet版本1.5.3(R 2.13.0),我无法复制表中的点7(惩罚的多项式),其中报告使用的基因数量为269,测试错误为13 54。使用的数据是此14癌症微阵列数据集。无论我如何尝试,我都会在170-180个基因附近使用性能最佳的模型,其54个测试错误中的16个。大号1个

注意,在654页的18.3节的开头,描述了数据的一些预处理。

我已经联系了作者-到目前为止没有任何回复-请问是否有人可以确认复制表格是否存在问题或提供有关如何复制表格的解决方案。


1
glmnet最近发生了很大的变化,并且过去在数字方面存在一些问题。可能是由于这个原因吗?您联系作者多长时间了?我看到当前版本是1.7,并且仅在大约一周前才上传到CRAN。
主教

@cardinal,距离我上一次使用glmnet进行实验以来大约有四个星期,但是我们还有一个不同的实现,产生的结果与ESL中的表不一致。该表肯定较旧,因此我猜测该表不正确,但可以肯定知道。
NRH

我非常简要地浏览了这些部分,我想到的一个问题是如何进行交叉验证以选择第661页(18.19)(第三次打印)中的收缩参数。任何想法?也许我错过了它或在其他地方描述了它?这似乎是您尝试重新创建分析的地方可能对方法差异敏感的地方。
主教

@cardinal,首先感谢您对此感兴趣。简历可以有所作为是正确的,但作者实际上在网页上拥有用于简历的子集(索引)以及数据。无论如何,CV仅用于选择最佳惩罚参数lambda,然后将整个训练数据集用于拟合模型,然后在测试数据上对其进行评估。因此,即使CV步骤选择了另一个lambda,该lambda仍在训练数据的求解路径上,我们找不到它……
NRH

Answers:


2

您检查过这本书的R包了吗? 它包含所有数据集,函数以及其中使用的大多数脚本...


7
不错的尝试。是的,我已经检查了该软件包,但是声称它包含所有数据,函数和大多数脚本是一种夸张。它不完整,并且不包含有问题的数据集。
NRH
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.