Questions tagged «state-of-the-art»

2
支持向量机是否仍被视为利基市场中的“最新技术”?
这个问题是我在另一个问题上看到的评论的回应。 评论是关于Coursera上的机器学习课程提纲的,并且遵循“如今SVM的使用率不高”的思路。 我本人只是刚刚完成了相关的讲座,而我对SVM的理解是它们是一种强大且高效的分类学习算法,并且在使用内核时,它们具有“利基”特性,涵盖了大约10到1000个特征,以及训练样本的数量可能在100到10,000之间。训练样本的限制是因为核心算法围绕优化从方形矩阵生成的结果进行了优化,该矩阵的尺寸基于训练样本的数量,而不是原始特征的数量。 因此,我看到的评论是否对课程进行了一些实际的改变,如果是这样,那是什么改变:一种同样涵盖SVM的“最佳点”的新算法,更好的CPU意味着SVM的计算优势不那么值得?抑或是评论者的意见或个人经验? 我尝试搜索例如“支持向量机过时了”,但没有发现任何暗示它们被抛弃的理由。 Wikipedia拥有:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主要的症结似乎是难以解释模型。这使SVM可以很好地用于黑匣子预测引擎,但对于生成见解却不是那么好。我认为这不是主要问题,在选择合适的工作工具时(考虑到培训数据和学习任务的性质等),这只是一件小事。

2
在频繁模式挖掘中,FPGrowth是否仍被视为“最新技术”?
据我所知,用于解决频繁模式挖掘(FPM)问题的算法的开发,改进之路有一些主要检查点。首先,Apriori算法是由Agrawal等人于1993年提出的。,以及问题的形式化。该算法能够通过使用网格来维护数据,从而从集合(功率集)中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。 后来,在1997年,Zaki等人。提出了Eclat算法,该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于,不必重新读取整个数据集即可知道每个集合的频率,但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年,Han等。提出了一种名为FPGrowth的算法,以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩,同时还可以仅产生频繁的项目集(不生成候选项目集)。这主要是通过按降序对每个事务的项目进行排序来完成的,以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降,因此该算法能够剥离非频繁项集。 编辑: 据我所知,这可能被认为是最先进的算法,但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”?这种算法的直觉 / 主要贡献是什么? 在频繁模式挖掘中,FPGrowth算法是否仍被视为“最新技术”?如果不是,哪种算法可以更有效地从大型数据集中提取频繁项集?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.