每經記者 宋美璐  畢媛媛    每經編輯 陳俊傑 宋紅    

“大家好,我們又見面了。”熟悉的臉龐,熟悉的聲音,熟悉的那身西裝,商湯科技創始人湯曉鷗如約而至走向年會的舞臺中央,說累了舉起手邊的礦泉水飲了一口。

每年年會,湯曉鷗都會用獨屬他的“湯式幽默”分享自己一年來的思考和感悟。在商湯科技,“有趣的靈魂”是大家對他的評價。

“最近上映的《熱辣滾燙》,我還沒看呢。”話音落畢,詼諧的氛圍瞬間沉重,因爲在《熱辣滾燙》上映兩個月前,年僅55歲的湯曉鷗不幸病逝,在現實世界與大家告別。也是此時,大家才意識到這是數字人的世界。

這場跨越時空的重逢,是AI,也是愛;是對湯曉鷗卓越貢獻的深深緬懷,也是對其留下的AI技術的傳承與延續。

“湯老師最關注的一直是中國科技人才的培養”3月7日早上,在商湯科技會議室內,商湯科技數字空間事業羣數字文娛事業部總經理欒青,對《每日經濟新聞》記者回顧湯曉鷗數字人制作的過程時表示,湯曉鷗的“中國原創”理念已成爲每個商湯人的使命。

“《熱辣滾燙》那一段,是年會前一天徐立提出來的”

“湯老師最關注的一直是中國科技人才的培養”,這是欒青從個人角度對湯曉鷗的理解。作爲湯曉鷗在微軟亞洲研究院的實習生,欒青多次在採訪中提及“中國原創”。在欒青看來,這是湯曉鷗生前堅持的事,也深深影響着每一個商湯人。

記者:9分鐘湯曉鷗教授數字人演講的想法從何而來?

欒青:每年湯老師在年會上的脫口秀都是大家期待的焦點。往年,湯老師會從生活和日常流行元素中總結並分享自己的思考和感悟,給我們的工作生活帶來很大的啓發。所以,對商湯人而言,他既是我們的老師,也是信仰一般的存在。

湯老師意外發生後,團隊和他的學生們都很傷心。在籌備年會時,大家認爲如果能延續傳統,對每個商湯人來說都非常重要。

這件事情沒有糾結,我們很快達成共識。當然,有了初步想法後首先要徵求其家人的同意,他們表達認可後,我們很快決定實施了。

記者:我們想聽聽湯曉鷗數字人誕生過程中的一些具體故事。

欒青:徐立(注:商湯科技董事長兼CEO)對這件事的要求很高,他希望最終的呈現能超越數字人本身,有更高的還原度,而不只是一個動作、表情,在同一個地方講述。所以最終呈現的視頻中我們可以看到湯曉鷗喝水、低頭還有一些手部動作,甚至是湯老師講話間隙的咳嗽、停頓都還原了出來。

團隊從1月開始策劃、構思,前前後後大概用了近兩個月。除了做內容和後期,真正操刀執行人物生成和聲音生成的實際上就幾個同事,第一版的生成花了一天多的時間,但後來又經過多次調試,總共做了五、六版,其中文案調整的最多。

記者:視頻之後,商湯科技旗下數字人視頻生成平臺“如影”收到了怎樣的反饋?

欒青:外界的看法會說好逼真,都以爲是之前的錄屏,直到後面《熱辣滾燙》纔看出來不是預錄的。其實,加入《熱辣滾燙》那一段是年會前一天徐立提出來的。

我們做好後首先是拿給湯老師的家人看,我們最大的認可也來自他們。看完初版後,他們很感動,說像是真的湯老師。其實我們所有人在會議室看完後眼睛都是溼溼的。

記者:你是湯曉鷗在微軟亞洲研究院的實習生,你眼中的湯曉鷗是怎樣的?你在他身上學到了什麼精神?

欒青:在微軟亞洲研究院,我有幸成爲湯老師組的實習生。湯老師是一個think big(大處着眼)的人,他始終堅持“中國原創”,包括他堅持基礎技術的突破,創辦上海人工智能實驗室和浦江實驗室作基礎研究和原創內容研發。

他一直焦慮中國能不能有更多的原創技術出現、能不能攏住優秀人才?現在回顧起來,這是件很偉大的事。可在他身邊的時候,你又不會用“偉大”來形容,只會覺得他是個很親切、很有趣的人。

我印象很深刻,他每晚會聽於謙講相聲。他常說人工智能再厲害,有趣的靈魂永遠沒辦法被替代。他關注的始終是人,關注人比關注商業和技術多很多,他希望未來每個優秀的研究員都能堅持“中國原創”。這個理念貫穿我們每個人,是我們的一股力量,也成爲每個商湯人的使命。

記者:以後商湯每年的年會,都可以看到“湯曉鷗”嗎?

欒青:我當然希望能夠延續下去,也許明年年會的湯老師就可以跟我們聊天、對話了。

“湯式幽默”重現背後聲音素材僅20秒

過去幾年發展中,數字人技術已逐漸成熟並應用於多個場景。但當湯曉鷗的聲音、笑容、停頓、走動、喝水動作甚至湯式幽默都能夠復現時,也意味着數字人技術實現了新的突破。

“AI復活”“AI伴侶”⋯⋯隨着數字人越來越逼真、自然,大家對AI在情感陪伴層面的應用需求也隨之變高。但欒青表示,技術如今還停留在視頻層面,如果要實現更及時的互動、生成更復雜的動作,還要翻過“精細化控制”的技術大山。

記者:項目製作過程中使用了哪些關鍵素材和技術?

欒青:聲音是我們第一重要的事情。湯老師東北口音,帶着一種冷幽默,包括他習慣使用語氣詞和輔助詞,都是他個人魅力的一部分。我們希望做到當聲音一出來,大家就感覺到湯老師回來了。

整個製作中,我們截取了湯老師四、五段不同說話風格的聲音作爲prompt(提示),每段3—5秒,有調侃式的,有深情款款的,總共加起來的聲音素材不過20秒。整體生成比較快,基本上放進去就能即時生成,但挑選素材花費了一些力氣和時間。

這得益於我們的大模型語音,也是我們2023年底最大的突破。我們在這方面一直在投入,只是之前的數據量沒有那麼大,今年上半年我們將會推出更大的大模型語音。

視頻方面,我們採用了湯老師前年年會不到30分鐘的視頻。我們認爲湯老師的笑是靈魂,爲了表現的更自然,我們在以前的視頻裏不斷學習有效參數,再經過反覆調整最終才抓住了那個神韻。

記者:技術之外,湯曉鷗有趣的靈魂和湯式幽默的內容是怎麼生成的?

欒青:不僅僅依靠大模型學習以前他講過的內容,坦白說,像《熱辣滾燙》這樣的新內容,則是憑藉大家對湯老師多年的理解加入的感受性內容。這個過程中,徐立、湯老師的助理及家人都給瞭如影很好的建議,最終才實現了湯式幽默。

我們要不斷地大模型交互迭代,不斷地告訴它你要什麼,最終大模型纔會給我們理想的結果。

另外,我們希望內容能和公司的價值觀、寄語進行結合,因此,後面《喫麪條》的小品,也和商湯的“一碗湯麪”有關。

以電影、音樂、小品來講述引導理念和思想,這是湯老師一貫的演講方式。視頻中,用春晚最經典的小品告訴大家只有經典的東西才能夠跨越時間,在各方面噪聲非常多的情況下,更要沉下心來做事情。

記者:湯曉鷗的數字人,製作成本是多少?

欒青:我們不知道怎麼去定價,單純從價格角度來說,數字人制作不是非常高;但從我們所有商湯人對湯老師的懷念角度來說,這是無價的

素材的多少,決定能產出的內容有多豐富,所以親人以前留下的一些視頻是最重要的。如果能有幾分鐘連續的視頻片段,不是晃來晃去的,這就給數字人制作提供了很大便捷。沒有連續的片段也可以生成視頻,只是複雜得多。

從技術本身來講,我們只要十幾秒、二十秒的素材就可以製作視頻,只不過大家會發現可選的、可編輯的、可過渡生成的動作內容會少很多。

記者:商湯在這個過程中給予瞭如影哪些支持?如影未來的發展重點是什麼?

欒青:商湯共享底層技術,包括加速平臺、算法平臺、底層訓練平臺等。商湯的每個垂直產業都要基於這些技術才能做好。如影業務團隊未來還是會持續關注人物類的視頻。

記者:過去也有AI伴侶這樣基於人類情感的應用,隨着人類情感需求的增加,未來面向消費端的應用會不會更多?

欒青:從使用場景來看,大家用得最多的還是視頻生成和直播,本質上沒有更大的區別。確實有人看到之後,提出了復活自己家人、偶像的需求。

隨着數字人越來越逼真、自然,AI確實可以滿足更多情感陪伴層面的需求,但想要實現綜合大模型的對話互動,實時生成對應的動作,現在的視頻生成技術還做不到。比如你能通過描述,控制數字人走過來,但沒辦法還原他撩頭髮的小動作和小表情。

現在海內外各類視頻生成軟件都沒達到精細化控制,只能表達概念,這對創作者來說也比較痛苦。這也是我們接下來想要努力攻堅的突破點。

萬元左右“復活”親人,數字人的製作與使用理應造福人類

湯曉鷗以數字人的形象出現,是驚喜,是震撼。

“復活”想見之人不再遙不可及,當每個人都能承擔起數字人制作的費用後,思念之情是否會被利用,是如影當下最爲關注的事情。

數字人的製作與使用理應造福人類,而不是成爲傷害與痛苦的源頭

記者:湯曉鷗數字人視頻出來後,你們有沒有接到類似“復活”家人的訴求?

欒青:我們的客戶、個人都有一些找了過來,暫時都還在對接,沒辦法透露太多的細節。

商湯在如影數字人的方向,更多還是TO B (面向企業)的服務。我們去年做了一個“如影繁星”計劃,希望扶持各行各業的夥伴,包括金融、教育醫療、銀行保險等。至於你們問到的和殯葬館的合作,其實還要看上下游產業鏈的融合,我們究竟要去哪個行業其實並不關鍵,關鍵的是解決了大傢什麼樣的問題。

之前我們看到有經紀公司做明星的復活數字人去陪伴粉絲,我們也在慢慢嘗試在關鍵節日,讓親人或者偶像的數字人生成祝福型的視頻。我們希望技術能夠賦能各行各業。

記者:未來有沒有可能,普通用戶也能用較低的成本,定製逝去親人的視頻?

欒青:普通人想做,肯定是做得起的。我們現在有比較廣泛的渠道,我看到新聞1萬元左右就能“復活”親人,大概就在這樣的範圍,甚至有些簡單的視頻價格可以更低。

我們已經有完整的工具鏈可以讓大家制作數字人的祝福視頻,技術上已比較成熟。但是希望有互動、更深入的服務,比如讓大模型學習到家人大腦的想法,還需要技術的不斷攻破。

記者:越來越多復活數字人的視頻出現後,大家對於技術倫理也有了擔憂和爭議,這方面商湯有什麼樣的思考?

欒青:我們在前年推出數字人的時候,第一步是跟網信辦旗下的幾大所一起聯合推出“可信數字人”的標準。我們在製作數字人時,首先要有他的聲明,如果不是他的家人或者當事人授權的運營團隊同意,是不可以製作這個數字人的。

我們現在看到有些非法機構製作數字人,其實用了非法的方式獲取資料。技術一旦被公開後,總有一些人想方設法去做一些非法的事情,我們技術公司對此無法控制,但是我們有一個鑑定機制,商湯平臺上製作的數字人,有看不見的編碼在裏面,如果是非授權的數字人,我們可以立刻發現。

當前國內幾大公司的數字人都在“可信數字人”標準內,所以大家不要輕信魚龍混雜的公司去製作自己的數字人,是比較危險的一件事。

另外,AI復活逝者,可以做到形象還原、聲音還原,但是情感怎麼複製?會不會對家屬帶來二次創傷?數字永生後會不會對人的身份認同發生變化?大家的顧慮很多,我認爲這是這麼多年來逝者數字人沒有形成產業的重要原因。

大產業未來如何發展,我們也在觀望,對真人的復刻其實已經進入深水區。

中國AI企業的發展,具有劃時代的使命感

進入2024年,AI競爭的牌局已然明朗,國內早已跨越了單憑資金就能輕易購得大模型技術的階段,中小玩家因體力不支逐漸黯然離場。

理性背後,是實力尚存的慶幸,也有堅定前行的使命。大家都鼓起勇氣做好了長期投入的準備,決心留在這場沒有硝煙的戰爭中。

記者:數字人方面現在的市場競爭如何?

欒青:幾年前大家就在做傳統的數字人,市場競爭非常激烈,第一技術比較成熟,第二應用場景明確。

不過,現在的競爭進入到深水區了,越來越多的人意識到數字人可以做什麼,哪些做不了,現在我們更多需要考慮的是服務,如何真正解決大家的問題。現在的視頻生成效果或者直播動作,會覺得很假,用着用着不想用了。我認爲當下階段的關鍵在於,生成型大模型的自然度和真實感的進一步突破和跨越。

我個人是樂觀主義者。整個AI行業中,當然有樂觀派和悲觀派,但綜合來說大家還是認爲AI能夠帶來生產力的改善,給人類帶來不同的體驗。我認爲,在當前場景下,AI仍然是工具。雖然它可以生成有創意的內容,但目前爲止它更多的工作內容是演繹和對現有內容的總結。下一步會是什麼,大家在不斷的迭代研發中,也保持審慎的態度。

記者:Sora爆火,你作爲從業者,看到Sora後的第一反應是什麼?

欒青:真實度上了一個臺階。這個真實度的細節,我們以及一些市場競品也能做到差不多,transformer的結構來做這件事也不是Sora最早提出的,但確實大力出奇跡,它做到了更長的時長。

從實驗成本、實驗週期、算力複雜度來講,都需要巨大的投入,大家的突破肯定晚於Sora。現在我反而覺得大家都被拉到同一個起跑線上了,大家知道做這件事是可行的,那麼中國企業一定會在很短時間內做出類似的產品來。

Sora爲大家帶來時長的突破,那麼真實性和物理一致性也要維持得更長。可是AI真的理解物理規律嗎?我覺得沒有。

記者:接下來大模型的突破,你認爲會是哪個方向?

欒青:視頻必然是今年的主題,但永恆不變的主題一定是大腦。我們不認爲大模型真正形成了智能大腦,行業仍要再突破幾輪纔行。

記者:你心中的完美AI是怎樣的,距離你心中的完美AI還有多遠?

欒青:我心中的完美AI視頻生產產品,是讓每個人都是自己的導演,它能更可控地做出非常多的視頻,比如張藝謀說完想法後,AI能直接生成一部電影。每個人都是導演,那每個人都可以做出心目中想要的東西。

目前大概只做到了30%,還是屬於很早期。想要AI生成複雜的場景,比如讓它做電視劇、電影還差得遠。總結來說,概念性的表達夠了,交互性的表達差很遠。假以時日,一定是可以實現的。

記者:大力發展AI,有何關鍵意義?哪些公司能活到最後?

欒青:對於中國的人工智能來說,如果我們不能在AI方面有足夠的積累和突破,可能就是其它國家先突破。大家有種使命感,希望在技術上不斷深入研究,做到領先世界。

AI領域還在投入的階段,哪怕Open AI,也還沒有太多商業化,我認爲未來很多年都還要繼續投入。Open AI最大的價值是它驗證了“大力出奇跡”,大部分公司包括谷歌,可能都沒有勇氣做這件事。

早期投入很重要,現在國內市場,不是財力就能買到大模型技術。做AI,要先知先覺有儲備,這個行業已經不適合中小玩家,容易會被耗死,接下去慢慢有越來越多的公司會被淘汰。做大模型,關鍵是拼綜合實力,包括底層架構、人才儲備等。

記者:現在有足夠的基礎設施儲備去支撐商湯繼續在AI領域做技術性的突破進展嗎?

欒青:商湯在2019年建設大裝置,算是比較幸運的一件事。目前我們擁有亞洲地區比較大的算力等基礎設施儲備。中國AI行業的發展,需要我們這種大模型公司,一起在上下游產業鏈迭代突破,這也是國內衆多優秀企業共同的願望。

相關文章