近日,“2018全球人工智能產品應用博覽會”在蘇州國際博覽中心舉辦,來自10個國家200多家企業和人工智能機構展示1000多種全球最新的人工智能產品,100多位專家、學者主導25場關於人工智能細分應用的分論壇。

“上海交通大學蘇州人工智能研究院分論壇”上,分音塔科技CEO關磊現場分享了人工智能在翻譯機場景的應用。

清華大學團隊分音塔科技自主研發的準兒翻譯機,是全球首款帶屏的人工智能翻譯機,也是中國首款人工智能口語翻譯機,並且是中國首家攻克日語離線語音識別技術,目前同品類中支持語言和口音數量遙遙領先的翻譯機。

在分享中,關磊談到了分音塔團隊的研發歷程與細節,爲人工智能同行提供了一份實戰性的借鑑。

不一樣的C端產品

分音塔科技專注於AI和C端結合的產品,是中國人工智能翻譯的創建者,2016年發明了中國第一款人工智能翻譯機,目前在行業佔有主流位置。

翻譯機作爲C端產品,其實和傳統C端產品的差別很大。比如機器人、智能音響這些傳統的C端產品,本質是人機交互,使用場景是家庭裏面,場景比較單一。但是翻譯機的本質是人和人交互,它是翻譯溝通的媒介,用戶說的語言、使用的場景和人機交互的場景都不太一樣。

所以分音塔在做準兒翻譯機的時候,遇到的問題複雜得多。比如用戶使用不在中國,使用的場景在全世界,可能在美國、日本、塞班、馬爾代夫,也可能在餐廳、酒店、酒吧、街頭,用戶使用場景極其複雜。

去年準兒翻譯機上市以後,研發團隊就發現市場需求比想象的更廣泛,商旅用戶、旅行用戶甚至公安局出入境這些都是用戶。這就是做C端產品和B端產品不一樣的地方。

從旅遊市場切入

當前AI比較熱門,但是技術只有解決用戶在實際場景的需求才更有價值,在應用上選擇什麼領域非常重要。

分音塔當時做翻譯機,選定了出境遊市場。第一,中國人出境去年達到了1.29億人次,而且還在快速的增長,市場很大;第二,中國經濟十幾年的發展,人們的消費隨之升級,出境遊也從大衆化的跟團旅遊發展到深度遊,80、90後更願意揹着包自由行走,追求深度體驗。這些都會使人們出境遊時,語言溝通不暢這一痛點,需求解決更爲迫切。

聚焦出境遊應用,也避免了通用型的翻譯語言在個性化的應用場景中“失真”,翻譯準確率也會更高。

譯得準,從語義識別着手

人工智能翻譯技術涉及的技術很多,主要技術有語音識別、語義識別、機器翻譯、語音合成等。語音識別解決聽得到、聽得清的問題,語義識別則是解決聽得懂的問題。

同一種語系中,語義識別相對容易,比如拉丁語系很多單詞都差不多,翻譯準確率就高。但不同的語系,由於文化習性差異大,語義識別難度就大。東方語系本來就語義複雜,比如漢語中的一句話,放不同的場景都能表達不同的意思。

分音塔做翻譯機,是中國人在外國使用,所以必須解決東西方語系下的語義識別問題。沒有現成的語言模型,自己從零開始做語料庫。國外很多地方都譯不準,很多專有名詞要根據國外的場景優化,只能建自己的語料庫。比如和日本人聊到料理,日本當地的地名、菜名都需要重新做語料。

人類的語言表達很複雜,比如口頭禪,還有表達時該停頓的時候沒有停頓,都要通過語義識別來斷句。

LBS(基於位置的服務)是輔助語義識別的有效途徑。比如檢測到用戶在日本,那麼後臺會根據用戶所在的地方進行一些精準的匹配,比如日本的專業名詞,同音詞的理解和翻譯上。

當然,人工智能翻譯機最難的機器翻譯,也是分音塔科技最核心的技術優勢。

直面實際應用

語音識別其實在實地使用中面臨很大的挑戰。

某友商曾號稱自己的產品語音識別準確率達96.7%,但測後發現還不到91%。原來該友商的檢測條件有三個:第一密閉安靜的環境,第二國家普通話二級水平,第三常用的語言。如果在實際應用場景,這三個條件也許就變成了噪音、方言口音、非常用語。

分音塔研發團隊從降噪抓起。

在特別嘈雜的場景,差距30公分語音識別效率會大幅度下降。傳統音響考慮的是3到5米範圍內的降噪,最後分音塔團隊逼自己開發適合0.5米到1.5的降噪技術,使用起來效果非常好。

中國口音博大精深,外國也一樣。分音塔做出第一代翻譯機後,發現外國人也有口音,英語有美式、英式、加拿大、南非等很多口音,美式英語的口音識別很差。後來又改進,從最早上線支持四種語音,到目前支持39種語言、52種口音,成爲支持語言、口音最多的翻譯機。它可以根據LBS場景來實時選擇當地所需要的口音,從而提升語音識別準確率。

配屏是準兒翻譯機的行業首創。人和人溝通,7%的信息傳遞是通過語言,38%是通過語調和語速,55%是通過表情和動作。爲了增強人機交互,分音塔團隊堅定給準兒翻譯機加了一塊屏,由此通過視覺來彌補聽覺的不足。

用戶在使用中還會面臨網絡環境的問題,比如中國、韓國、日本有全世界最好的網絡,但到歐洲城郊幾乎就沒網,加拿大、澳大利亞玩也這樣。這逼着分音塔團隊開發一些離線語音識別技術。目前,分音塔團隊與清華大學語音和語言技術研究中心聯手攻克了中、日、英三種語言的離線語音識別技術,其中日語離線語音識別技術是國內零突破。

後記

“分音塔(Babel)”得名於《聖經》,又名“巴別塔”、“通天塔”。相傳洪水大劫過後,全天下的人講同一種語言,人們決定在古巴比倫附近建造一座城和一座塔——通天塔,以揚人類之名。高塔直插雲霄,天公被觸怒,他變亂了人類的語言,使人類相互之間不能溝通。計劃因此失敗,人類自此各散東西。分音塔科技成立的願景和初衷就是要實現全人類的無障礙溝通,他們希望能夠藉助科技的力量再造人類的分音塔,凝聚人類的力量。

在關磊看來,未來的翻譯機一定是多模的,就像人和人的交互一樣,有聲音的傳遞,有語氣語調的傳遞,有肢體語言的傳遞。單機還有很長的道路。

他認爲,C端產品和B端產品最大的不同,是B端產品有專業人員培訓人,可以讓人適應機器;C端產品只能機器適應人。做C端產品是很累的事情,公司一定要有很優秀的UED(User Experience Design用戶體驗設計)。

分音塔已經服務了十幾萬的用戶,今年可以達到兩百萬用戶。這麼多用戶,天南海北、各種年齡、各個知識層次,不可能去培訓他們來適應翻譯機,只能去調配翻譯機服務用戶們,所以人工智能翻譯機未來在操作是一定是傻瓜化,抗干擾能力要強。

相關文章