每經記者 朱成祥    每經編輯 董興生    

“大家好,我是劉強東,今天是不是看起來有些不同?很久沒直播,還有些許緊張……話不多說,老劉的數字直播帶貨現在開始。”4月16日,京東創始人劉強東在京東平臺開啓數字人直播。

“東哥”數字人直播,迅速引起廣泛關注,數字人替代真人直播的時代來臨了嗎?

4月18日,數字人頭部廠商硅基智能創始人司馬華鵬接受了《每日經濟新聞》記者的專訪。司馬華鵬表示:“劉強東這次數字人直播,對我們行業是非常大的品牌宣傳。他使用(數字人直播),說明這個行業得到了一次非常重要的認可。”

對於AI的使用,司馬華鵬建議:“未來所有使用AI的人,應該專注到人類特有的東西,比如創意,比如有溫度的東西。”

拆解數字人技術

“數字人劉強東”是否有硅基智能技術的支持?司馬華鵬表示:“我們不太方便對外公開,但這些技術最早的開創者肯定是我們。我們在整個(數字人)直播上大概有40多項發明專利,在申請的也有幾十項。現在行業內有很多在使用我們的技術授權,也有很多在使用硅基智能的API(應用程序編程接口)。”

“東哥”數字人究竟是如何打造出來的?司馬華鵬介紹:“它(數字人)這些內容是用AI渲染出來的。如果現在想做東哥同款,你需要提供幾分鐘的視頻。然後我們會將其訓練成一個數字人模型。這個數字人模型背後,將由大模型驅動它。定時去上一些產品、定時回覆一些客戶需求、定時作一些記錄,這些都是事先做好的劇本,這些劇本實質由大模型驅動,比較接近於人類的行爲和反饋。”

那麼,除了上述AI渲染技術外,數字人直播還需要哪些技術支持?司馬華鵬稱:“我們的大模型是多模態的,是文本生成、聲音生成和數字人生成的結合。其實很多人在反饋,他(劉強東)聲音和節奏感與他原來講話不太一樣。這很可能克隆的是平時的語速,但是直播(過程中),一個用戶停留時長是比較短的,你必須在很短時間內把大量的信息披露出來,所以必須把聲音放得快一些。”

對於語音合成技術,司馬華鵬表示:“我們全部技術都是自己的。從目前端到端的生成來講,(語音合成)已經是一個非常成熟的技術。”

數字人形象、語音合成,都是外在展現形式,數字人直播內容仍舊離不開文本。對於文本,司馬華鵬稱:“文本大模型方面,我們基本上都是原創的技術,最近‘炎帝’大模型剛剛通過網信辦的備案。”

能否替代真人直播?

目前,大家看到的直播帶貨,很可能就是數字人。司馬華鵬介紹:“我們在2021年開創AIGC直播的大方向,(劉強東數字人)基本上是我們2023年產品能夠呈現出來的效果,這樣的直播間我們已經賣掉了上萬個,京東、淘寶、抖音、快手和視頻號平臺都有。”

真人直播會面臨各種複雜場景,特別是情感交流,數字人可以做到嗎?司馬華鵬表示:“我們在看東哥直播的時候,會不會把他(數字人)當作真正的東哥來看,這是決定數字人智能化程度的重要標誌。從開播到現在,行業有非常多的評價,大家覺得還是能看到一些機械的痕跡。”

“這個(數字人)行業發展的核心就是‘看不出來’。”司馬華鵬強調。

其認爲:“我們現在也有大量的直播間,效果比這個(劉強東數字人)要好很多。如果他這個直播不是在自家平臺,而是在其他平臺,很容易被機器識別出來,很快就會被限流。”

因此,在司馬華鵬看來,數字人行業的核心是讓整個直播間符合圖靈測試。對於數字人行業的發展,其認爲:“(該領域)圖靈測試1.0是分不清(是人類還是AI);圖靈測試2.0則是雙向情感交互;圖靈測試3.0就是‘死生相契’,未來我們與AI之間,可能是Soul Mate(心靈伴侶)的關係,它是你非常重要的助手、朋友,也可能是你親密的合作伙伴。”

目前,很多問答式大模型主要給受衆提供專業類輔助,但若訴諸情感,是否兼具圖像、聲音和文本的多模態大模型更具優勢?對此,司馬華鵬表示認可。“人類大腦的設計中,90%以上是針對圖形,所以我們說有圖有真相。基於文本,產生的是想象力,(閱讀文本)的能力確實非常重要,但對大部分人而言,(自己的大腦)生成圖片,然後再想象出一個空間,還原出這個東西,是非常累的。因此,多模態或者視頻化交互能力,能夠大大降低我們之間信息溝通對應的腦力消耗。”

對於未來AI電商的形態,司馬華鵬認爲,未來更大的價值是專業性。比如說,假設我們在食品領域有一個很好的AI專家,它可以從數據、算法的角度給我們提供很多的專業內容。這樣的專家,它帶來的影響力會超過現有的人類專家,這會帶來真正的、更好的電商交易。

其進一步解釋稱:“人類在做很多行爲的時候,有一定的偏頗或者偏見,或者帶有一定的商業目的。而以數字和算法驅動的AI專家,會成爲我們的朋友、我們的夥伴,很有可能成爲AI電商未來的主流。現在這些成本還比較高,只是出現在奢侈品領域。我希望未來每一類小產品上,都有這樣一個專家顧問,來給我們提供非常好的溝通交流方式。這是AI電商未來非常重要的一部分。”

相關文章