原標題:讓語音助手更像人,要做出哪些努力?

標貝科技是一家2016年2月組建,6月開始正式運營的語音合成公司。憑藉不到30人的小團隊和僅僅1人的市場兼銷售,他們在成立當年便收回成本,實現收支平衡,更在2017年獲得了2000萬元以上的收入。

語音合成對多數人而言並不是多麼陌生的技術,大家都知道這一技術應用在哪些地方。百度地圖、滴滴出行等出行類app,喜馬拉雅小雅音箱、Rokid若琪等智能音箱,出門問問等語音助手都被我們熟知。他們的聲音背後,都有標貝的方案。

語音的背後是智能。標貝科技在產業中所處的位置,是人工智能的人機交互部分,這部分可進一步細分爲語音識別、語義分析(2017年在國內驟然興起的NLP)及語音合成三個領域。誠然,作爲一家創業公司,標貝科技需要面對不少先行者乃至巨頭;幸運的是,科大訊飛、捷通華聲等老前輩把更多精力集中於語音識別,近些年國內的創業同行們也普遍專攻NLP,語音合成則相對是市場認知較晚、從業專家較少的領域。

國內最早研究語音合成的團隊,一些在國家機關如中科院,一些集中在高等學府如北大、清華、中科大等,一些則在科大訊飛、捷通華聲等公司任職。最初的語音合成技術,應用於銀行叫號機、火車站廣播等跟互聯網沒啥關係的產品。嚴格來說,那個時代的語音合成並不是人工智能的細分領域;也因此,在需求變化後,當語音合成離不開人工智能,這個行業需要一定程度的「從頭再來」,這也就給了標貝科技等創業公司以機會。

雖然尚屬創業公司,但標貝科技的創始團隊及其核心技術人員普遍有着六、七年以上的從業經歷,他們來自科大訊飛、捷通華聲、百度等大企業,不僅是這一曾經的冷門行業中爲數不多的高級人才,彼此之間的合作也早有年月。此次出來創業,以創始人劉爽爲首的標貝科技,打算帶着語音合成的專業知識和經驗,全面擁抱人工智能時代。

僅僅提到「語音合成」,不足以描述標貝科技的垂直程度,實際上他們更專注於語音合成背後的數據庫及其加工方式。簡而言之,機器說話可以理解爲對人類說話的一種模仿,但人類說話並沒有一種固定的模式——拿高德地圖來說,林志玲語音包和默認語音包能一樣麼?基於林志玲創建的語音數據庫,可能就比來自其他人的更受歡迎一些。

更細微的差別不止於此。一個成年人在興奮時什麼語氣,沮喪時什麼語氣,正午什麼音調,子夜什麼音調,工作時如何用詞,私密時如何用詞,可能都會有顯著區別。對於社會而言,10年前人們普遍的說話方式,及今天人們普遍的說話方式,差異也是一聽便知。

比如你現在走進屋子來錄音。你剛剛進來時的聲音,和你坐了一個小時後的聲音,其實是不一樣的。如果用這種有瑕疵的數據庫來做語音合成,就很難避免不自然、不像人的地方。

消除語音助手的「機器味」,或至少避免嚴重的違和感,產品背後的語音數據庫就一定要與產品調性匹配,並且與時俱進——同樣是神似真人的聲音,你大概不希望打理日常瑣事的語音助手,是2006年黃健翔解說足球比賽那個風味吧?

標貝所做的事情,就是通過構建更完善、更優質的數據庫,讓機器發聲更自然、更貼近真人,也更適合產品自身的需要。使用過小雅音箱或若琪(這兩款音箱的語音合成都來自標貝)的朋友大可自己判斷,和其他產品相比,哪些聲音聽起來更舒服。

標貝科技創始人劉爽表示,從數據庫切入市場也有另一重考量,在於數據庫更有說服力。比起對技術的解讀,直接展示手中的資源更容易打動客戶。不過,如今的標貝也推出了比數據庫更直觀的產品——免費、公開的測評工具,讓不瞭解自己「爲什麼做不好語音合成」的客戶明白問題出在哪兒。

發現問題後,有些問題可以通過技術層面的改善解決,有些則必須調整數據庫本身。這時,標貝積累的資源就能派上用場。基於更好的數據庫,很多努力都可以事半功倍;對於企業來說,既然沒必要重複造輪子,提前做好準備的標貝,就順勢成爲了許多企業的首選。畢竟,時代已不同以往,想要在人工智能領域取得優勢,細節非常重要。

不管說的內容是什麼,有人說話讓你聽着很舒服,有人則讓你很煩躁。聲音是一個與體驗密切相關的東西,合格的就是合格,不合格的就是不合格。不合格的聲音再怎麼做些微改善,也達不到今天的要求。

而不合格的聲音帶來的,則是顧客對產品評價的全面下降。回憶一下,在與通常的語音客服交流時,聽着那種語速極慢的機器聲音逐個蹦字「XXX請按1,XXX請按2……」,你的第一需求是否是「馬上轉接人工」?類似語音客服的存在,不僅沒有很好地緩解人工客服的壓力,更是浪費了客戶的時間。不管對企業還是對社會,這種聽起來就像機器的聲音,都有改善的必要。

「人工智能興起之前,市場沒有對語音合成的需求。所以直到2015年、2016年,這個行業纔有創業的機會。」劉爽說,標貝能很快與各行各業、很多公司開始合作,也正因爲語音合成的圈子太小,誰做了什麼、做得怎麼樣,圈裏人都一清二楚。團隊實力強勁的標貝,很快便受到關注,業務起步迅速也是情理之中了。

正因爲行業以前有點「隱形」,從業人員太少,現在的人工智能公司,無論做智能音箱、語音助手還是兒童玩具,都極難找到足夠人才組建自己的語音合成團隊。這時,由行業精英組成的,爲數不多的幾家創業公司,會對市場起到舉足輕重的支持作用。標貝科技也因此被凱泰資本看好,於2017年10月拿到1000萬元規模的Pre-A輪融資。

值得一提的是,從成立初期一直到2018年,標貝提供的主要服務就是數據庫及部分算法,從一個相當垂直的角度切入市場,打造了良好口碑。但今年開始,考慮到越來越多的新公司、小團隊也加入了人工智能大軍,而他們需要的更可能是完整的語音合成方案,標貝也推出了自己的語音合成全套服務。

那麼,哪些行業最可能成爲標貝的客戶呢?劉爽透露道,雖然目前能見到的還不多,但人工智能語音很快就會在泛文娛方向發力,尤其是遊戲及兒童玩具等。劉爽說,遊戲中的NPC引入人工智能後,就能應對更多的情況,不再重複向玩家播放兩三句固定臺詞。

這不禁令我想起《上古卷軸5:天際》的一些智能NPCmod。mod雖然帶來了更豐富的內容,無非也只是從一個小框架跳到一個大框架裏,用mod作者的努力代替了遊戲團隊的更新。但智能化的NPC,則能跳出框架,進入一個真正自由的領域。屆時,遊戲,尤其是近年火熱的開放世界遊戲,顯然會給玩家帶來更豐富多變的體驗,也能極大延長遊戲的壽命。

與此同時,若將更好的語音合成技術應用於機器人,則家用機器人就會更有陪伴感,更適合照顧小孩、老人。今年的中國,機器人娛樂很可能成爲重要的一環,我們不妨批判一下它們的語音系統——誰是智能的,誰還停留在「銀行客服」水平。

相關文章