關磊對話AI大會：清華準兒是如何成爲優秀C端產品的

近日，“2018全球人工智能產品應用博覽會”在蘇州國際博覽中心舉辦，來自10個國家200多家企業和人工智能機構展示1000多種全球最新的人工智能產品，100多位專家、學者主導25場關於人工智能細分應用的分論壇。

“上海交通大學蘇州人工智能研究院分論壇”上，分音塔科技CEO關磊現場分享了人工智能在翻譯機場景的應用。

清華大學團隊分音塔科技自主研發的準兒翻譯機，是全球首款帶屏的人工智能翻譯機，也是中國首款人工智能口語翻譯機，並且是中國首家攻克日語離線語音識別技術，目前同品類中支持語言和口音數量遙遙領先的翻譯機。

在分享中，關磊談到了分音塔團隊的研發歷程與細節，爲人工智能同行提供了一份實戰性的借鑑。

不一樣的C端產品

分音塔科技專注於AI和C端結合的產品，是中國人工智能翻譯的創建者，2016年發明了中國第一款人工智能翻譯機，目前在行業佔有主流位置。

翻譯機作爲C端產品，其實和傳統C端產品的差別很大。比如機器人、智能音響這些傳統的C端產品，本質是人機交互，使用場景是家庭裏面，場景比較單一。但是翻譯機的本質是人和人交互，它是翻譯溝通的媒介，用戶說的語言、使用的場景和人機交互的場景都不太一樣。

所以分音塔在做準兒翻譯機的時候，遇到的問題複雜得多。比如用戶使用不在中國，使用的場景在全世界，可能在美國、日本、塞班、馬爾代夫，也可能在餐廳、酒店、酒吧、街頭，用戶使用場景極其複雜。

去年準兒翻譯機上市以後，研發團隊就發現市場需求比想象的更廣泛，商旅用戶、旅行用戶甚至公安局出入境這些都是用戶。這就是做C端產品和B端產品不一樣的地方。

從旅遊市場切入

當前AI比較熱門，但是技術只有解決用戶在實際場景的需求才更有價值，在應用上選擇什麼領域非常重要。

分音塔當時做翻譯機，選定了出境遊市場。第一，中國人出境去年達到了1.29億人次，而且還在快速的增長，市場很大;第二，中國經濟十幾年的發展，人們的消費隨之升級，出境遊也從大衆化的跟團旅遊發展到深度遊，80、90後更願意揹着包自由行走，追求深度體驗。這些都會使人們出境遊時，語言溝通不暢這一痛點，需求解決更爲迫切。

聚焦出境遊應用，也避免了通用型的翻譯語言在個性化的應用場景中“失真”，翻譯準確率也會更高。

譯得準，從語義識別着手

人工智能翻譯技術涉及的技術很多，主要技術有語音識別、語義識別、機器翻譯、語音合成等。語音識別解決聽得到、聽得清的問題，語義識別則是解決聽得懂的問題。

同一種語系中，語義識別相對容易，比如拉丁語系很多單詞都差不多，翻譯準確率就高。但不同的語系，由於文化習性差異大，語義識別難度就大。東方語系本來就語義複雜，比如漢語中的一句話，放不同的場景都能表達不同的意思。

分音塔做翻譯機，是中國人在外國使用，所以必須解決東西方語系下的語義識別問題。沒有現成的語言模型，自己從零開始做語料庫。國外很多地方都譯不準，很多專有名詞要根據國外的場景優化，只能建自己的語料庫。比如和日本人聊到料理，日本當地的地名、菜名都需要重新做語料。

人類的語言表達很複雜，比如口頭禪，還有表達時該停頓的時候沒有停頓，都要通過語義識別來斷句。

LBS(基於位置的服務)是輔助語義識別的有效途徑。比如檢測到用戶在日本，那麼後臺會根據用戶所在的地方進行一些精準的匹配，比如日本的專業名詞，同音詞的理解和翻譯上。

當然，人工智能翻譯機最難的機器翻譯，也是分音塔科技最核心的技術優勢。

直面實際應用

語音識別其實在實地使用中面臨很大的挑戰。

某友商曾號稱自己的產品語音識別準確率達96.7%，但測後發現還不到91%。原來該友商的檢測條件有三個：第一密閉安靜的環境，第二國家普通話二級水平，第三常用的語言。如果在實際應用場景，這三個條件也許就變成了噪音、方言口音、非常用語。

分音塔研發團隊從降噪抓起。

在特別嘈雜的場景，差距30公分語音識別效率會大幅度下降。傳統音響考慮的是3到5米範圍內的降噪，最後分音塔團隊逼自己開發適合0.5米到1.5的降噪技術，使用起來效果非常好。

中國口音博大精深，外國也一樣。分音塔做出第一代翻譯機後，發現外國人也有口音，英語有美式、英式、加拿大、南非等很多口音，美式英語的口音識別很差。後來又改進，從最早上線支持四種語音，到目前支持39種語言、52種口音，成爲支持語言、口音最多的翻譯機。它可以根據LBS場景來實時選擇當地所需要的口音，從而提升語音識別準確率。

配屏是準兒翻譯機的行業首創。人和人溝通，7%的信息傳遞是通過語言，38%是通過語調和語速，55%是通過表情和動作。爲了增強人機交互，分音塔團隊堅定給準兒翻譯機加了一塊屏，由此通過視覺來彌補聽覺的不足。

用戶在使用中還會面臨網絡環境的問題，比如中國、韓國、日本有全世界最好的網絡，但到歐洲城郊幾乎就沒網，加拿大、澳大利亞玩也這樣。這逼着分音塔團隊開發一些離線語音識別技術。目前，分音塔團隊與清華大學語音和語言技術研究中心聯手攻克了中、日、英三種語言的離線語音識別技術，其中日語離線語音識別技術是國內零突破。

後記

“分音塔(Babel)”得名於《聖經》，又名“巴別塔”、“通天塔”。相傳洪水大劫過後，全天下的人講同一種語言，人們決定在古巴比倫附近建造一座城和一座塔——通天塔，以揚人類之名。高塔直插雲霄，天公被觸怒，他變亂了人類的語言，使人類相互之間不能溝通。計劃因此失敗，人類自此各散東西。分音塔科技成立的願景和初衷就是要實現全人類的無障礙溝通，他們希望能夠藉助科技的力量再造人類的分音塔，凝聚人類的力量。

在關磊看來，未來的翻譯機一定是多模的，就像人和人的交互一樣，有聲音的傳遞，有語氣語調的傳遞，有肢體語言的傳遞。單機還有很長的道路。

他認爲，C端產品和B端產品最大的不同，是B端產品有專業人員培訓人，可以讓人適應機器;C端產品只能機器適應人。做C端產品是很累的事情，公司一定要有很優秀的UED(User Experience Design用戶體驗設計)。

分音塔已經服務了十幾萬的用戶，今年可以達到兩百萬用戶。這麼多用戶，天南海北、各種年齡、各個知識層次，不可能去培訓他們來適應翻譯機，只能去調配翻譯機服務用戶們，所以人工智能翻譯機未來在操作是一定是傻瓜化，抗干擾能力要強。

關磊對話AI大會：清華準兒是如何成爲優秀C端產品的

熱門新聞

週熱門

關磊對話AI大會：清華準兒是如何成爲優秀C端產品的

高盛：對沖基金繼續押注AI，但科技巨頭不再喫香

美國政府加入AI芯片淘金熱! 國防部支持的EnCharge AI擬籌7000萬美元

AI浪潮席捲出版業 科技巨頭爭奪內容新高地

大摩：大模型減價令AI應用增加 料百度、阿里巴巴及騰訊雲業務收入可受惠

微軟對阿聯酋G42投資或導致關鍵芯片和AI技術被轉移

英國宣佈新的人工智能研究資助計劃

Mac與PC之爭硝煙四起 微軟與蘋果在AI PC繼續上演“相愛相殺”

爲內容付費！OpenAI與這家傳媒帝國達成合作 價值超2.5億美元

英偉達一季度淨利增六倍，市值逼近全球半導體企業二到六名總和

歐盟批准世界首部《人工智能法案》

隱藏的“AI大贏家”？電影《大空頭》原型力薦：蘋果很快會突圍！

EPRINT集團附屬推出人工智能在線設計平臺

下一次工業革命開始！英偉達Q1狂攬260億美金 A股小夥伴誰迎機遇？

大模型應用元年：企業探索“新航路”

隔夜要聞：民主黨人向司法部提交對石油巨頭的調查 杜邦將分拆成三個獨立的公司 高盛預計美聯儲今年不會降息

熱門新聞

週熱門

AI浪潮席捲出版業科技巨頭爭奪內容新高地

大摩：大模型減價令AI應用增加料百度、阿里巴巴及騰訊雲業務收入可受惠

Mac與PC之爭硝煙四起微軟與蘋果在AI PC繼續上演“相愛相殺”

爲內容付費！OpenAI與這家傳媒帝國達成合作價值超2.5億美元

隔夜要聞：民主黨人向司法部提交對石油巨頭的調查杜邦將分拆成三個獨立的公司高盛預計美聯儲今年不會降息