有没有办法让垃圾邮件刺客在邮件正文的顶行上得分更高?


9

很多垃圾邮件正在通过我运行的邮件服务器上的过滤器,这是一个相对简单的技巧,即从顶部几行(非常明显的)减肥或其他欺诈文本开始,然后是编程文档中的大量文本-或者最糟糕的是,从Stack Exchange抓取的文本。充其量,Spamassassin将此视为BAYES_50,并且碰巧其余消息的构造足够仔细,以至于不会触发其他触发器。(例如,标头是最小且正确的。)通常,所包含的摘录与我的合法利益非常紧密地结合在一起,从而使邮件的整体得分为BAYES_00,这是因为非常垃圾的令牌只是被多汁的sysadmin问题解决块所淹没。

顶部很明显是垃圾邮件(实际上,它往往与以前接收和训练为垃圾邮件的消息非常相似),令我感到惊讶的是它正在通过-但显然是这样。似乎是一个单独的过程,对消息的前25行(或大约25行)进行了评分,并对其进行了权衡以解决问题。有没有办法做到这一点?


一些人建议编写自定义正则表达式。我不想涉足这一领域,因为这是一场持续不断的失败之战。这是人们在贝叶斯垃圾邮件分类被广泛使用之前所做的事情,而且通常很糟糕。没有人能跟上。它不仅比按每个垃圾邮件的Delete键有效,而且我的工作也很多。

贝叶斯垃圾邮件过滤工作。如果我将“ 折叠上方 ”部分分开,然后分析该部分,并去除诱饵/谷壳,则它甚至可以处理垃圾邮件。问题是:我怎样才能让Spamassassin做到这一点?


是否启用了贝叶斯过滤器?
Kondybas 2014年

@kondybas是的。这就是问题的一部分,因为填充文本的数量远远超过了垃圾邮件的数量。
mattdm 2014年

您使用了什么MTA?
Kondybas 2014年

您对这些垃圾邮件做了多少贝叶斯训练?我希望贝叶斯算法很快就能解决。
mc0e 2014年

@ mc0e不能。它不是那么神奇。一个更复杂的机器学习系统可能可以做到这一点,但我想我在这里要求的“一个简单技巧”也可以。
mattdm 2014年

Answers:


1

我本人是一位(生动)的反垃圾邮件斗士。而且由于您遇到的许多问题,几年前,我最终自己做了肮脏的事情。

现在,这不是您特定问题的答案,而是您特定问题的答案。因此,请不要因此而投票。

我如何解决此问题的方法是修改XMail服务器使用的sa_filter-post.pl脚本,该脚本在电子邮件文件上调用spamc并在那里做一些细微的事情,以便根据以下信息处理整个文件而不是其中的特定部分:一些特定规则(由我硬编码)。是的,正则表达式,但是到目前为止它们对我有用(在此之前和之后,我确实还有很多其他脚本,因此可能起作用)

例如,我有一个正则表达式可以找出电话号码。垃圾邮件发送者将其完全留了下来,因此可以直接处理文件的中间400个字符(实际上,我经过反复试验,最终从200个字符变为400个字符)。请注意,与文件中的内容相比,很难挑选出所看到的内容。

还有一个具有与html表相同结构的表,其中包含“产品”,一个虚拟标题和不可用的页脚,因此我将其删除,将“产品”注释列删除,然后将其传递给spamc。

依此类推,您得到了图片。

但是,并非所有规则都是完美的,因此我在这里通过给每个规则分配一个私人分数来做些魔术,我会根据规则的行为对其进行硬编码并在需要时进行上下调(有时我最终会删除所有规则以共同)。然后,我通过私有分数修改SA分数。我之所以这样做,是因为出于某种原因,SA只给出了4分。有些东西显然是垃圾邮件,但我也很想正确地将它们填入规则。因此,我将其提升到5.0以上,并加上一些考虑了其他变量的后处理脚本(电子邮件来源,电子邮件目标,标头结构等),它们或多或少地杀死了垃圾邮件出来。

现在,我意识到这不是您想要的,但是就我而言,它为我提供了扫描功能的强大功能,只是我需要手动进行设置,然后不时进行一点触摸,增加值/正则表达式。

但是在您的情况下,事情要容易得多,因为您所要做的就是使用一个简单的bash脚本,该脚本将由MX而不是spamc调用,并且让该脚本使用head命令仅获取您想要的第一个字节数,并且将该临时文件传递给spamc。

该脚本的内容将取决于您的邮件服务器,但这并不难理解。

(请注意,我只讲了我的大部分设置,以便您可以看到此选项的可能性)

PS:我个人从来没有收到过此类垃圾邮件(邮件中包含与编程相关的东西),所以我想知道您是否没有生气,现在您已成为目标。那将解释特制的电子邮件。我考虑这种可能性的原因是,几年前,当我非常活跃于各种IT论坛和团体时,我确实惹恼了一些人,并且时不时地我曾经对服务器进行各种类型的攻击,包括垃圾邮件发送。但是那个时候白痴不是那么聪明:)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.