大數據文摘出品

作者:Caleb

陳勝者,陽城人也 ,字涉。吳廣者,陽夏人也,字叔。

相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是“燕雀安知鴻鵠之志哉”,或者“天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇”。

如今,隨着AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。

既然如此,我們爲何不考考它,看看在AI眼中,《陳涉世家》到底是個什麼故事。

最近,B站上一位叫做“鷹目大人”的阿婆主就用谷歌翻譯對AI進行了一次隨堂測驗,只不過它的表現嘛,就見仁見智了。

比如,AI就把這句著名的“苟富貴,勿相忘”就翻譯成了“沒有錢的人,總是會被遺忘”

“燕雀焉知鴻鵠之志”在AI看來竟然是,“蠍子給了我一個熱烈的擁抱”???

整個過程,文摘菌一邊黑人問號臉一邊笑到拍桌子。

有網友就指出,這波反諷竟然“翻譯出了本質”

還有網友“太喜歡了所以拼了一首詩”,大家可以猜猜每句話對應到的原文是什麼?

然後,再來對對答案,看看整本《陳涉世家》都被AI翻譯成了什麼樣子?

機器翻譯爲何如此困難?

其實不管是語種互譯,還是古文翻譯,都是機器翻譯的類別之一。

但是,如果機器翻譯翻車的情況持續發生,我們還能相信它嗎?

先別急,我們從NMT(neural machine translation,神經網絡機器翻譯)的誕生開始講起,看看機器翻譯到底是個什麼東西。

2013年,Nal Kalchbrenner和Phil Blunsom提出了一種用於機器翻譯的新型端到端編碼器-解碼器結構。該模型可以使用卷積神經網絡(CNN)將給定的一段源文本編碼成一個連續的向量,然後再使用循環神經網絡(RNN)作爲解碼器將該狀態向量轉換成目標語言。

這一研究成果的發佈可以說是標誌着NMT的誕生,雖然在那之後也有不少研究者進行改進,但是仍然缺乏對模型的理解。比如,經常出現的問題包括但不限於訓練和解碼過程緩慢;對同一個詞的翻譯風格不一致;翻譯結果存在超出詞彙表(out-of-vocabulary)的問題;黑箱的神經網絡機制的可解釋性很差;訓練所用的參數大多數是根據經驗選擇的。

NMT和SMT對比

總的來說:不確定性是翻譯中的一個核心挑戰。

知己知彼百戰百勝,想要根除這種不確定性,我們還需要知道它的來源。

在一篇論文中作者指出,在構建翻譯的模型的時候,基本上有兩種不確定性,一種是任務本身固有的不確定性,另一種是數據收集過程中存在的不確定性

所謂內在的不確定性,是指不確定性的一個來源是一句話會有幾種等價的翻譯。因爲在翻譯的過程中或多或少是可以直譯的,即使字面上有很多表達相同意思的方法。句子的表達可以是主動的,也可以是被動的,對於某些語言來說,類似於“the”“of”或“their”是可選擇的。

除了一句話可以多種翻譯這種情況外,規範性不足同樣是翻譯不確定的來源。另外,如果沒有背景輸入,模型通常無法預測翻譯語言的時態或數字,因此,簡化或增加相關背景也是翻譯不確定性的來源。

而外在的不確定性,則是因爲系統,特別是模型,需要大量的訓練數據才能表現良好。爲了節省時間和精力,使用低質量的網絡數據進行高質量的人工翻譯是常見的。這一過程容易出錯,並導致數據分配中出現其他的不確定性。目標句可能只是源句的部分翻譯,或者目標句裏面有源句中沒有的信息。

在一些加了copy機制的翻譯模型中,對目標語言進行翻譯的時候可能會完全或部分複製源句子。論文作者經過研究發現,即使copy機制很小,也能對模型預測產生較大的影響。

論文下載地址:

https://arxiv.org/pdf/1803.00047.pdf

機器翻譯頻繁翻車,微信谷歌無一倖免

去年3月,微信翻譯的頻繁翻車事件得到了人們的關注,機器翻譯的不確定性同時也被更多人所瞭解。

目前,機器翻譯領域主要使用的NMT架構都差不多,一方面問題出在解碼器語言模型,使用的語料讓它學習到了這些最大概率出現的詞。微信團隊在處理的過程中似乎沒有對“特殊情況”進行處理,於是我們就能看到這樣的翻譯發生:

如果添加了特殊詞的copy機制,完全可以把無法翻譯的單詞不進行翻譯,直接copy過去。也就是說,一個聰明的模型應該知道哪些應該翻譯,哪些不應該翻譯。

隨後,微信也針對這一問題進行了修復,對於敏感詞“caixukun”或者句式“you are so……”進行原句返回。

除了解碼器語言模型外,問題可能更多出現在語料庫上,現在業界所做的機器翻譯很大程度上靠語料“懟”,只要平行語料數量足夠多,質量足夠好, 一般的系統也可以訓練出很好的結果。

不過,如果訓練語料多來自電影字幕、多語言會議等材料,那麼模型最終呈現的翻譯內容也會相對應比較“活潑”和“口語化”。面對庫中不存在的詞,比如caixunkun,算法會自動匹配最經常出現,或者在同語境下最容易匹配的內容,比如形容詞“帥哥”或“傻蛋”。

當然除了微信,被業界視爲先驅的谷歌也發生過類似的翻車案例。

此前就有Reddit網友指出,谷歌翻譯在學習過程中可能受到了輸入來源的影響,將一些意味不明的語句翻譯成了如聖經一般的語言。比如這個:

英文大意爲:世界末日時鐘在12點3分鐘,我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的迴歸。

哈佛大學助理教授、研究自然語言處理和計算機翻譯的Andrew Rush認爲,這些神祕的翻譯結果可能和谷歌幾年前採用的“神經機器翻譯”技術有關。他表示,在神經機器翻譯中,系統訓練用了一種語言的大量文本來和另一種語言進行相應翻譯,以在兩者之間創建模型。但當輸入的是無意義內容時,系統就會出現“幻覺性”的輸出結果。

在去年AI Time的一次辯論中,中科院自動化研究所研究員宗成慶就表示,機器翻譯近幾年的進步確實很大,但是其需要基於場景和任務。機器翻譯在一些場景下確實能幫助人,比如旅遊問路,但是在某些領域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還爲時過早。

東北大學計算機學院教授朱靖波根據自己的經驗列舉出好的機器翻譯系統需要的三個東西:一是擴大訓練數據規模,提高品質;二是不斷創新技術;三是根據問題不斷打磨,三者缺一不可。

看來,機器翻譯未來還有很長一段路要走啊!

相關文章