Recaptcha如何知道您没有输入图片的虚假翻译[关闭]


22

据我了解,验证码是由于过滤器,噪声和其他杂项算法的应用而失真的文本。因此,要确定该人的阅读能力是否是该人的阅读能力,可以将他们的答案与已知答案进行比较。

现在,在阅读ReCaptcha时,它说显示的单词是OCR无法翻译的单词。另外,recaptcha被用来翻译那些图像。如何判断您的阅读确实正确还是正在编造东西?

如果知道说的是什么,就不会将其用作翻译材料。如果不知道该说什么,那么它将如何验证您的答案?

我猜想这可能是基于概率的分析,在将任何内容标记为已翻译之前,会使用大量样本。

有人知道答案在哪里吗?


3
有趣的是《 Time》民意测验中的4chan /匿名恶作剧。“大理石蛋糕,也是游戏”,它利用了第二个单词的众包验证中的缺陷。
DanBeale 2011年

Answers:


33

基本上对书页进行照相扫描,然后使用“光学字符识别”(OCR)将其转换为文本,并以图像的形式馈入网络,图像中的一个单词在reCAPTCHA之后是计算机程序已知的,而另一个单词不是尚未知道。

然后,用户键入两个单词,如果他们解决了已知答案的单词,则系统会认为他们的答案对于新单词是正确的。然后,系统将新图像提供给其他许多人,以便更有把握地确定原始答案是否正确。因此,该系统是一种自我完善的服务,随着时间的推移会越来越好。

http://www.google.com/recaptcha/learnmore


22

这就是为什么reCaptcha输入两个词的原因。单词之一是已知的,而单词之一未知。您是否通过验证码仅取决于您对已知单词的回答方式。您对另一个(未知)单词的答案将与该单词的其他答案一起用于将其转换为已知单词。


4
...这也是为什么随着时间的推移,它变得越来越令人沮丧的原因,并且当您连续第五次失败时,您会说服您成为白痴/机器人。:-(
Sirex

奇怪...我从未失败过一个我能记住的东西,也许只是我的运气。
保罗,

@Sirex我曾经这样认为,但是后来我意识到只有在语料库文本的大小相对于验证码条目恒定或缩小的情况下才是正确的。事实是,语料库文本正在增长……问题是这种增长是否与总体验证码使用的增长保持同步。
Joel Coehoorn 2013年

是的,我猜。我已经看到很多难得的reCaptchas。甚至连已知单词都不明确的地方。
Sirex 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.