很多垃圾邮件正在通过我运行的邮件服务器上的过滤器,这是一个相对简单的技巧,即从顶部几行(非常明显的)减肥或其他欺诈文本开始,然后是编程文档中的大量文本-或者最糟糕的是,从Stack Exchange抓取的文本。充其量,Spamassassin将此视为BAYES_50,并且碰巧其余消息的构造足够仔细,以至于不会触发其他触发器。(例如,标头是最小且正确的。)通常,所包含的摘录与我的合法利益非常紧密地结合在一起,从而使邮件的整体得分为BAYES_00,这是因为非常垃圾的令牌只是被多汁的sysadmin问题解决块所淹没。
顶部很明显是垃圾邮件(实际上,它往往与以前接收和训练为垃圾邮件的消息非常相似),令我感到惊讶的是它正在通过-但显然是这样。似乎是一个单独的过程,对消息的前25行(或大约25行)进行了评分,并对其进行了权衡以解决问题。有没有办法做到这一点?
一些人建议编写自定义正则表达式。我不想涉足这一领域,因为这是一场持续不断的失败之战。这是人们在贝叶斯垃圾邮件分类被广泛使用之前所做的事情,而且通常很糟糕。没有人能跟上。它不仅比按每个垃圾邮件的Delete键有效,而且我的工作也很多。
贝叶斯垃圾邮件过滤工作。如果我将“ 折叠上方 ”部分分开,然后分析该部分,并去除诱饵/谷壳,则它甚至可以处理此垃圾邮件。问题是:我怎样才能让Spamassassin做到这一点?