问题
我曾尝试在标记的犯罪数据集上使用朴素贝叶斯,但结果却很差(准确性为7%)。朴素贝叶斯的运行速度比我一直在使用的其他算法要快得多,因此我想尝试找出分数为何如此之低的原因。
研究
阅读后,我发现朴素贝叶斯应与平衡数据集一起使用,因为它偏向于频率较高的类。由于我的数据不平衡,因此我想尝试使用互补朴素贝叶斯,因为它专门用于处理数据偏斜。在描述该过程的论文中,该应用程序用于文本分类,但是我不明白为什么该技术在其他情况下不起作用。您可以在这里找到我所指的论文。简而言之,想法是根据类未出现的情况使用权重。
经过一些研究,我能够找到Java的实现,但是不幸的是,我不了解任何Java,只是我对算法的理解不足以实现自己。
题
在哪里可以找到python的实现?如果不存在,我应该如何自己实施呢?