机器翻译的实际质量是多少?


27

直到今天,作为AI外行,我对自动翻译的承诺和改进感到困惑。

我的印象是:还有很长一段路要走。还是有其他解释为什么为什么相当简单的Wikipedia文章的自动翻译(例如由Google提供和提供)仍然读起来和听起来主要是愚蠢的,难以阅读,并且仅在部分程度上有用和有用?

这可能取决于个人喜好(关于可读性,有用性和有用性),但是我的个人期望非常令人失望。

另一方面:Google的翻译对大多数用户而言仍然可读,有用和有用吗?

还是Google有理由保留自己的成就(而不是向用户展示他们可以展示的最好成绩)?


初步结果:我们仍然无法在平等的基础上与人工智能进行对话-仅在字符串级别。那么我们为什么要害怕呢?因为他们知道的比我们知道的还要 -但是我们不知道吗?


2
机器翻译是一个难题,尤其是因为现代技术不会尝试理解要翻译的文本。在许多情况下,这种方法或多或少有效,但也可能会失败。我个人发现-牢记这一点-大多数翻译都是有帮助的,而且我没有理由相信MT公司会退缩。也许某些特定领域的应用对商业更加敏感,但对一般的MT而言却不是。
奥利弗·梅森

@OliverMason:“现代技术不会尝试理解要翻译的文本”-这是要讲的本质吗?那就是我必须了解MT结果的方式吗?很难过。(非常欢迎来自AI社区的一些矛盾!)
Hans-Peter Stricker

1
@ Hans-PeterStricker:嗯,当Fred Jelinek注意到解雇语言学家使他的语音识别器更加准确时,这一切才真正开始。从那时起,各种形式的机器学习已经取代了基于规则的AI,而现在我们几乎没有最模糊的想法来了解大多数AI系统如何“真正起作用”-也许是随机的。
凯文

2
@ Hans-PeterStricker将现代AI系统视为“理解”并没有真正的帮助。可以将其更多地视为一个接受一组输入并创建一组输出的系统。输入的内容可能是英文文本,输出的内容是西班牙文文本。系统从一大堆英文文本及其等效的西班牙语文本中“学习”了这一点。这是否意味着它会英语或西班牙语?这更多是一个哲学问题。实际上重要的是,它可以一定程度的可靠性将英语翻译成西班牙语。
Josh Eller

答案中略微触及了它,但我认为值得指出的是,答案在很大程度上取决于您所谈论的语言对。英语-西班牙语的翻译质量大大高于英语-日语。
mbrig

Answers:


21

谁声称机器翻译和人工翻译一样好?对我而言,作为一名从事翻译工作长达35年的专业翻译人员,MT意味着我每天的人工翻译质量已经提高了3到5倍,具体取决于源文本的复杂程度。

我不同意MT的质量会随着外语输入时间的延长而下降。对于带有语义和语法分析的旧系统,这曾经是正确的。我不认为我了解所有旧系统(我知道Systran,这是西门子的一种垃圾工具,已从一家公司像Danaer的礼物,XL8,Personal Translator和Translate出售给另一家公司),但甚至是一个专业系统我投资了28.000 DM(!!!!)失败了。

例如,句子:

在这个炎热的夏日里,我不得不工作,这真是让人头疼。

可以使用多种MT工具将其翻译成德语。

个人翻译器20

在德国谢尔梅(Schmerz im Esel)的战争后的战争纪念馆。

提示

埃塞尔的施默茨(Schmerz im Esel)的二战黑森州索默塔格音乐博物馆和战争博物馆。

DeepL

纪念德国高等音乐学院和战争音乐学院

谷歌:

阿尔默施默茨(Schmerz im Arsch)的二战黑森州索默塔格音乐博物馆(Deutsche Hemmertag)

今天,Google通常会向我提供可读性强,几乎正确的翻译,而DeepL甚至更好。直到今天早上,我在3个小时内翻译了3500个单词,尽管源文本充满了错误(用中文编写),但结果还是完美无缺的。


4
对于那些不懂德语的人来说,尚不清楚这些选择中的哪一个是好是坏。我知道“ Esel”的意思是“ ass(动物)”,“ Arsch”的意思是“ ass(身体部位)”。我不知道“质量”是什么意思,或者“ ein Schmerz im Arsch”是否可以接受。
Stig Hemmer

3
“ Schmerz im Esel”是可笑的(而且是错误的)。“ Arsch”是一个口语化的单词,您不会用书面德语来使用。“ Qual”是“痛苦”,因此恕我直言,IMHO是更好的选择,尽管不太准确,因为该句子表示烦恼而不是实际的痛苦。
奥利弗·梅森

1
@OliverMason Qual是一个很好的翻译:dict.leo.org/englisch-deutsch/qual
yunzen

4
@OliverMason我是德语母语人士,我认为它非常合适
yunzen

5
@OliverMason“痛苦中的屁股”是一个成语。“ Schmerz im Arsch”不是:没有人这么说。“ Qual”是英语习语的准确翻译,与您所说的相反,它很少表示实际的身体上的痛苦(同样,“ Qual”可以是字面的和形象的痛苦)。没有更多的上下文,DeepL翻译似乎是完美的。
康拉德·鲁道夫

7

Google的翻译可能会很有用,特别是如果您知道翻译不是完美的,并且您只是想初步了解文本的含义(Google的翻译有时可能会引起误解或不正确)。我不建议Google的翻译(或任何其他非人工翻译)进行认真的翻译,除非它可能是一个普通的句子或单词,它不涉及很长的文本和非正式语言(或s语),翻译涉及英语或您无权使用人工翻译。

0100100

在《使AI再次有意义》一文中,作者还讨论了翻译任务的困难(这被认为是AI完全问题)。他们还提到了变压器(另一种最新的机器翻译模型),该变压器的效果相当差(使用BLEU度量标准进行评估)。

总而言之,机器翻译是一个棘手的问题,当前的机器翻译系统肯定不能像专业的人工翻译那样出色。


100 BLEU分数并不意味着符合人类金标准翻译,而是意味着它与参考翻译完全匹配。由于通常有多种翻译句子的方法,因此即使人工翻译也通常没有100 BLEU,而更像是50-60。
19:29

@justhalf再次阅读我的答案。
nbro

1
感谢您的答复,如果我以前的评论显得粗鲁,则对不起。我在之前的评论中的观点是,给人的翻译将获得100 BLEU点的印象是不准确的,您当前的答案似乎确实如此。
Justhalf

100

5

您已经问了很多问题,其中一些问题无法确切回答。为了深入了解机器翻译的质量(及其历史),我想引用克里斯托弗·曼宁(Christopher Manning)在演讲中介绍的“一句话基准” 。它包含一个中英文示例,并与Google Translate输出进行了比较。该示例的正确翻译是:

1519年,六百名西班牙人降落在墨西哥,以数百万的人口征服阿兹台克帝国。在第一次冲突中,他们失去了三分之二的士兵。

Google翻译返回了以下翻译。

2009 1519 600西班牙人登陆墨西哥,数百万人征服了阿兹台克帝国,头三分之二的士兵抵御了他们的损失。

2011年 1519 600名西班牙人登陆墨西哥,数百万人征服了阿兹台克帝国,最初损失了士兵,三分之二的遭遇。

2013 1519 600西班牙人降落在墨西哥,以征服阿兹台克帝国,亿万人民,最初的对抗战士损失了三分之二。

2015 1519 600西班牙人降落在墨西哥,数百万人征服了阿兹台克帝国,他们所失去的士兵中有三分之二是前者。

2017年1519年,有600名西班牙人降落在墨西哥,以征服阿兹台克帝国的数百万人民,这是第一次交战,他们杀死了三分之二的人。

Google是 保留还是“隐藏”其最佳结果:我对此表示怀疑。在自然语言处理(NLP)领域有许多出色的研究人员。如果Google在翻译方面取得“最大成就”,研究人员早晚会发现这一点。(为什么Google仍会隐藏他们的“最大成就”?他们似乎看到了开源的好处,请参见Transformer [1]或BERT [2])

注意 有关NLP中最新技术的更新列表,请参见 SQuAD2.0排行榜

[1] Vaswani,Ashish等人。“注意力是您所需要的。” 神经信息处理系统的进步。2017。

[2] Devlin,Jacob等。“专家:为理解语言而对深度双向转换器进行的预训练。” arXiv预印本arXiv:1810.04805(2018)。


非常感谢您与“薪酬丰厚的研究人员”的链接。牢记补偿总是可以帮助您更好地理解事物(即使我不知道您在设置此链接时的想法)。
Hans-Peter Stricker

争论也不是很坚定。删除了链接,并尝试改善参数。我已经阅读了许多NLP论文,并对我的发现非常有信心,但是很难找到支持该论点的依据。
RikH

请让我知道您的发现(如果您不介意的话)。我的邮件地址可以在我的个人资料页面上找到。
Hans-Peter Stricker

1
2019年In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
丹·M。

4

这实际上取决于语言对和内容的主题。通常最好的方法是将英语翻译成其他语言。在流行语言之间进行翻译比较好,例如,从英语到罗马尼亚语的翻译比从英语到俄语的翻译要差。但是将英语翻译成俄语或罗马尼亚语比将俄语翻译成罗马尼亚语更好。将罗马尼亚语翻译成英语比将英语翻译成罗马尼亚语更好。

但是,如果您习惯于与翻译合作,并且对语言,翻译错误和主题有一定的了解,那么很容易理解应该包含的内容。而且,到那时,有时候读到翻译成您的母语以进行快速扫描的内容比用第二种语言阅读要容易。

较不流行的语言(用于翻译时不一定要说说话的人)与字面翻译的距离要近得多,仅比您个人使用不知道的两种语言的字典时要好得多。


2

我是不是错了,但是Google的翻译对大多数用户仍然可读,有用和有用?

是的,它们在某种程度上有所帮助,可让您更快地翻译。

还是Google有理由保留其最大的成就(而不是向用户展示他们可以展示的最好成绩)?

也许,我不知道。如果您搜索信息,那么Google确实会做很多可怕的愚蠢的事情,例如从用户在互联网上说的话中学习,将不合适的数据作为可信的输入数据集。


2

不使用英语写作的歉意。请在此处找到改编的翻译:

为了让感兴趣的人了解MT(DeepL)的质量,请从我今天上午编写的文本中查看此示例(6,300个单词,从上午9点开始,今天下午1点左右交付,仍然有时间写这篇文章)。当我发表评论时,我正在处理这句话(201个单词)。

或在您未登录本网站时运行或激活的任何进程,或以其他方式干扰该网站的基础架构的正常工作或对其施加不合理的负担的任何进程;(e)使用手动或自动软件,设备或其他过程来“爬行”,“爬行”或“蜘蛛化”本网站的任何页面;或(f)反编译,反向工程或以其他方式尝试获取本网站的源代码。”

DeepL返回以下内容:

Sie versichern,garantieren和verpflichten,sichgegenüberABC,dass Sie死于nic tun werden:(a)betrügerische,missbräuchlicheoder anderweitig非法行为Aktivitätendurchzufüenhöderund Seed死于网站 oder(b)Mitteilungen oder Aufforderungen,dazu bestimmt sind oder sind,Passwörter,Konten oder private Informationen von anderen Nutzern dieser网站zu erhalten,zu posten oder zuübertragenoder posten oder zu posten derer; 其他(c)死于Computernetzwerks verletzen,密码不合法材料(einschließlich材料,das als bedrohlich oderobszönangesetentewersäntentensundäntentensänäntentenänäntenenäderäntenenändereräntenenäderänderer)死于罪恶;od(d)Mailliste,listenserver oder jede andere形成“垃圾邮件”自动回复网站oder Prozesse,augeführtwerden oder aktiviert werden,währendSie nicht ufererensängnegers, Belastung der Infrastruktur Dieser网站stören; oder(e)manuelle oder automatisierte Software,Geräteoder andere Prozesse verwenden,um eine Seite dieer网站zu“ crawlen”,zu kratzen,zu spinnen oder zu spinnen;(f)dekompilieren,zurückzuentwickelnoder anderweitig zu versuchen,Quellcode dieer网站zu erhalten。网址是:http://www.sienic.org/网址:http://www.sienic.auf dieer。网址是:http://www.funtionieren.com/。oder(e)manuelle oder automatisierte Software,Geräteoder andere Prozesse verwenden,um eine Seite dieer网站zu“ crawlen”,zu kratzen,zu spinnen oder zu spinnen;(f)dekompilieren,zurückzuentwickelnoder anderweitig zu versuchen,Quellcode dieer网站zu erhalten。网址是:http://www.sienic.org/网址:http://www.sienic.auf dieer。网址是:http://www.funtionieren.com/。oder(e)manuelle oder automatisierte Software,Geräteoder andere Prozesse verwenden,um eine Seite dieer网站zu“ crawlen”,zu kratzen,zu spinnen oder zu spinnen;(f)dekompilieren,zurückzuentwickelnoder anderweitig zu versuchen,Quellcode dieer网站zu erhalten。zu kratzen,zu spinnen oder zu spinnen; (f)dekompilieren,zurückzuentwickelnoder anderweitig zu versuchen,Quellcode dieer网站zu erhalten。zu kratzen,zu spinnen oder zu spinnen; (f)dekompilieren,zurückzuentwickelnoder anderweitig zu versuchen,Quellcode dieer网站zu erhalten。

我花了大约5到10分钟来调整此段。

作为一名翻译,我知道我不能依靠机器翻译,但是随着时间的推移,我了解了不同系统的细节和功能,并且知道需要注意什么。

MT对我的工作有很大帮助。


2
请注意,法律文本会产生更好的自动翻译,因为该区域有大量的多语言文本。
Quora Feans

1

这不只是评论,而是答案。

质量取决于几件事,包括(如Aaron所说)1)语言对和2)主题,还有3)属词和4)原始样式,以及5)您拥有的并行文本的数量训练机器翻译系统。

首先,实际上,这些天所有MT都是基于平行文本,即两种不同语言的文本,其中一种可能是另一种的翻译(或两者都是某种第三种语言的翻译);当平行文本不包含特定单词时,可能会使用字典(可能由形态过程辅助)作为退避。

而且,正如其他人所说的,MT系统完全无法理解其翻译的文本。它只看到字符串和由字符组成的单词序列,并且在之前翻译过的文本中查找相似的字符串和序列。(好吧,它比这稍微复杂一点,并且已经尝试过在计算系统中获取语义,但是目前主要是字符串。)

1)语言各不相同。某些语言有很多形态,这意味着它们用一个单词来做事,而其他语言则用几个单词来做事。一个简单的例子是西班牙语“ cantaremos” =英语“我们将唱歌”。一种语言可能会做另一种语言不会困扰的事情,例如西班牙语中的非正式/正式(tu / usted)区别,而英语则没有同等的区别。或者,一种语言可能会执行某种形态上的事情,而另一种语言可能会使用词序。或者,该语言使用的脚本甚至可能没有标记单词边界(中文和其他一些词)。两种语言之间的差异越大,MT系统在它们之间进行翻译的难度就越大。统计MT的第一个实验是在法语和英语之间进行的,

2)主题:如果您在圣经中有平行文本(几乎所有成对的书面语言都是如此),并且您从中训练了MT系统,请不要指望它在工程文本上能很好地发挥作用。(好吧,按照训练机器翻译系统的标准来看,圣经是相对较少的文本,但假装:-)。)圣经的词汇与工程学的词汇有很大不同,各种语法的频率也是如此建筑。(语法本质上是相同的,但是例如在英语中,科学和工程学文本中会出现更多的被动语态和更多复合名词。)

3)属:如果您的平行文本都是声明性的(例如拖拉机手册),则尝试在对话框上使用生成的MT系统将不会获得良好的结果。

4)风格:想想希拉里和唐纳德;博学与流行。在一个方面进行培训不会在另一个方面取得良好的效果。同样,培训成人系统小说的MT系统并在儿童书籍上使用MT系统。

5)语言对:英语有很多文本,并且找到与给定英语文本平行的其他某种语言的文本的机会比在俄语和伊博语中找到平行文本的机会要高得多。(也就是说,可能会有例外,例如印度的语言。)作为一种概括,训练MT系统所需的并行文本越多,效果越好。

总而言之,语言很复杂(这就是为什么我喜欢它-我是语言学家)。因此,MT系统并不总是能正常工作也就不足为奇了。

顺便说一句,人工翻译也不总是那么好。一两年前,我正在将翻译人员的文档翻译成英语,以用作MT系统的培训材料。有些翻译难以理解,在某些情况下,我们是从两名(或更多)人工翻译那里获得翻译的,因此很难相信这些翻译在阅读相同的文档。

最后,(几乎)永远不会只有一种正确的翻译。翻译段落有多种方法,根据您想要的功能(语法正确性,样式,用法的一致性等),或多或少会比较好。没有“准确性”的简单度量。


1

令人惊讶的是,所有其他答案都非常模糊,并尝试通过人工翻译POV来解决。让我们切换到ML工程师。

在创建翻译工具时,我们应考虑的第一个问题是“我们如何衡量我们的工具是否有效?”

从本质上讲,这就是OP的要求。

现在这不是一件容易的事(一些其他答案解释了原因)。维基百科上有一篇文章提到了评估机器翻译结果的不同方法-人类得分和自动得分都存在(例如BLEUNISTLEPOR)。

随着神经网络技术的兴起,这些分数显着提高。

翻译是一个复杂的问题。有很多事情可能是对的,也有可能是错的,并且计算机翻译系统通常会忽略一些微妙之处,这对于人类来说是很突出的。

我认为,如果我们要考虑未来,我们可以依靠的东西很少:

  • 我们的技术正在变得更好,更广为人知并经过测试。从长远来看,这将提高准确性。
  • 我们正在开发新技术,可以考虑以前忽略的变量或可以做得更好。
  • 当前许多现有的翻译模型经常被“重用”以翻译其他语言(例如,尝试使用Google Translator将“ JEDEN”从波兰语翻译成中文(繁体)-您最终会得到“ ONE”,这表明了这一点Google将波兰语翻译为英语,然后将英语翻译为中文的事实)。这显然不是一个好方法-您将在此过程中丢失一些信息-但这仍然有效,因此像Google这样的公司将其用于没有足够工作能力或数据的语言。随着时间的流逝,将出现更多专门的模型,这将改善情况。
  • 同样,如前所述,越来越多的数据只会帮助改善机器翻译。

总而言之,这个复杂的问题虽然没有解决,但无疑是一个很好的方法,并且可以为经过精心研究的语言对带来令人印象深刻的结果。


“令人惊讶的是所有其他答案...”,而不是所有其他答案。我会说“其他一些答案”或“大多数其他答案”。
nbro

0

“或者Google是否有理由保留其成就(而不是向用户展示他们可以展示的最好的东西)”

如果是的话,那么他们所阻碍的将是惊人的。Google 在《自然语言处理》方面发表了许多有力的论文,其中包括获得最新技术成果或在概念上取得重大 突破的论文。他们还发布了非常有用的数据集工具。Google是为数不多的公司之一,这些公司不仅利用了最新研究成果,而且还为文献做出了积极贡献。

机器翻译只是一个难题。一个好的翻译员必须精通两种语言才能做好工作。每种语言都有其自己的成语和非文字或上下文相关的含义。仅使用双语言词典进行工作(对于人或计算机)会产生可怕的结果,因此我们需要在以多种语言存在的现有语料库上训练模型,以学习单词的实际使用方式(nb手动编译的短语转换表可以用作功能;它们不能完整显示)。对于某些语言对,平行语料库非常丰富(例如,对于欧盟语言,我们拥有欧洲议会完整议事程序)。对于其他对,训练数据则很少。即使我们拥有训练数据,也将存在使用较少的单词和短语,这些单词和短语的出现频率不足以使他们无法学习。

过去这是一个更大的问题,因为很难解释同义词。如果我们的训练数据中有“狗抓住了球”的句子,而没有“小狗抓住了球”的句子,那么第二句话的可能性就很小。实际上,在许多这样的情况下,需要进行重大的平滑处理以防止概率为零

在过去的15年左右的时间里,神经语言模型的出现极大地帮助了这一问题,方法是学习单词之间的联系之前,先将单词映射到实值语义空间。这允许学习模型,在该模型中,在语义空间中在含义上彼此靠近的单词也彼此靠近,因此,将单词切换为其同义词将不会极大地影响包含句子的可能性。 word2vec是一个很好地说明了这一点的模型;它表明您可以,例如,将“国王”的语义向量取为“男人”的向量,将“女人”的向量相加,然后发现与所得向量最接近的词是“女王”。一旦认真开始了对神经语言模型的研究,我们开始看到困惑的立即大量下降(即,自然文本对模型的混淆程度),并且由于这些因素,BLEU分数(即翻译质量)相应增加语言模型已集成到机器翻译系统中。

机器翻译仍然不如高质量的人工翻译好,而且在我们完全掌握了智能的AI之前,它可能不会那么好。但是好的人工翻译器很昂贵,而每个可以访问互联网的人都可以使用机器翻译器。问题不在于人工翻译是否更好,而是机器接近该质量水平的程度。差距一直在缩小,而且还在继续缩小。


我不喜欢这种方法-但这是个人品味和意见的问题。仅仅因为“人工翻译的价格昂贵”而没有“学到的/熟练的/理解的”翻译使我感到难过。那么翻译到底是什么呢?
Hans-Peter Stricker

@ Hans-PeterStricker翻译是关于能够与您没有共同语言的人进行交流。机器翻译目前足够好,可以使我们做得更好,尽管最终的翻译通常是不合语法的,或者听起来像非母语的人。(续...)
Ray

根据您所说的“学到的/明智的/理解的”的意思,我们可能已经在这样做了。这就是对语义向量的映射。这些词被嵌入代表其潜在含义的向量空间中。我链接的Sutskever论文(作为“概念”)实际上是通过将整个句子映射到语义向量上,然后将该向量转换为目标语言的句子来进行翻译的。因此,某种“理解”肯定在那里发生。(续...)
Ray

也存在学习基本语法(即句子结构)的模型,并且已经进行了将其集成到神经模型的工作,尽管目前看来,学习在任何给定时刻应注意的句子的哪些部分的模型似乎比显式句法模型更有效地处理这类事情。(续...)
Ray

如果您不认为任何此类“理解”都算作“真正的理解”,那么除了通过图灵测试的AI(即完全智能的AI)之外,还有什么算的?请注意,我从未说过我们不能制造出完全有能力的AI(我不能说要花多长时间;这不是我要从事的领域。但是我毫不怀疑我们最终会实现这一目标)。但我在这里描述的模型是我们使用的是什么,现在,他们在让人们的沟通还算正常工作。人工智能研究就是要不断获得更好的“足够好”的版本
Ray
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.