“新石油”開發記⑤:隱私計算,離改變“遊戲規則”還差耐心與時間

21世紀經濟報道記者 尤爲 廣州報道

編者按:已然來臨的數字時代,數據是核心驅動要素。圍繞數據的開發利用,一場新的生產與認知革命正在展開。想要了解這個時代,必須要先認識數據。南方財經全媒體·21世紀經濟報道策劃了數據要素市場系列報道,以期爲行業和社會公衆提供理解數據的敲門磚。

兩位富翁相遇,都覺得自己比對方有錢,有沒有辦法不說出自己的真實身價,卻能比出個高下?

這是首位獲得圖靈獎的華人科學家、中國科學院院士姚期智在40年前提出的著名的“百萬富翁”問題。如今,這個問題已被隱私計算解決。

對於與上述問題存在相似困境、正在興起的數據資產與數字市場來說,隱私計算的意義可以用“顛覆性”來形容。因爲它解決了數據交易中一個最爲核心的、曾經似乎無法兩全的問題——既想使用數據、結果,又要保護數據中包含的隱私。

在隱私技術的蓬勃發展之下,隱私與數據流動這對“魚與熊掌”如今可以兼得了。

更完整的稱謂應該是“隱私保護計算”

何爲隱私計算?在中國信通院雲計算與大數據研究所和隱私計算聯盟聯合發佈的《隱私計算應用研究報告(2022年)》中,隱私計算的定義爲在保證數據提供方不泄露原始數據的前提下,對數據進行分析計算,保障了數據在產生、存儲、計算、應用、銷燬等各個環節的“可用不可見”,有效提取數據要素價值的一類信息技術。

外行人乍一聽隱私計算,覺得像是拿隱私來做計算,會認爲這是一項偏負面的技術。實際上,數牘科技高級總監李宗勇向21世紀經濟報道強調:“隱私計算更完整的稱呼是‘隱私保護計算’(或隱私增強計算),可在保護隱私的同時對數據進行計算。

“可用不可見”又該如何理解?華控清交戰略總監、標準化負責人王雲河舉例解釋,如果所有數據加上一個常數後再交易,機器將看不到原始數據,但這是“不可見”嗎?“我覺得遠遠不夠。因爲對於稍有點推測能力的機器而言,很容易推導出原始數據。”他強調,從本質上來講,“不可見”是指在密碼學上的保密性或機密性達到足夠強度,推導不出原始數據。“可用”則相較容易理解,指能夠計算並輸出正確的結果,也就是對數據使用方有價值的結果。

解決數據交易的核心問題:各方互不信任

數據已與土地、資本、勞動力、技術並列成爲生產要素,被譽爲數字經濟時代的“石油”。培育數據要素市場、釋放數據更多的價值的前提是實現數據大規模社會化流通,但在實際操作的過程中仍面臨許多難題。 

數據作爲表徵現實世界人和客觀事物的性質、狀態等特徵的抽象符號,承載着隱私信息;雖然有的企業數據不具備人格化特徵,不能被稱之爲隱私,但仍負載着商業信息,屬於商業祕密。不可避免的,數據的流通和交易會涉及個人隱私或企業商業祕密的安全問題。

數據在計算機和互聯網環境中以二進制的形式存在,這種數字化形態對數據流通過程的數據隱私保護形成了主要阻礙。數據提供方一旦將原始數據交予數據使用方,將無法有效管控後者對數據的使用、傳播或買賣等行爲,相當於喪失數據所有權和控制權,使得數據的價格、可出售次數大打折扣。

多位專家對21世紀經濟報道記者表示,這裏的核心問題是“信任問題”

數據流通的理想狀態是“我足夠信任你,相信你不會作惡,而你用完數據後會妥善保管或銷燬數據。”李宗勇強調,而現實中數據在大規模社會化流通中,由於參與方大多相互並不熟知,互不信任,因此需要用技術去建立參與各方之間的信任基礎,“與業務無關、相對中立的隱私計算技術就承擔了這一角色。”

他還強調,“跨網跨域數據在流通中僅有安全若沒有實現數據的價值,那也是沒有意義的。隱私計算保證的就是跨網跨域數據在流通融合過程中的隱私安全問題。”

華控清交戰略高級總監劉崢也認爲,目前來看,基於密碼學的隱私計算能夠解決在“不相信人”的情況下,讓數據規模化的流通、融合、應用,是一個“非常好的解決方案”。

數據交易2.0時代——有價值的不是原始數據 而是計算價值

數據來源於用戶,可平臺又對數據進行了加工,那加工後的數據權屬到底歸用戶還是平臺?其中還涉及到哪些權利?權益該如何分配?這些問題一直懸而未定,制約着數據要素市場的發展。

隨着隱私計算逐漸進入商業化落地的階段,業內稱數字交易進入2.0時代——“數據不再以原始數據本身進行流通和交易,而是以反映業務價值的數據融合計算結果來進行流通和交易。這意味着,數據交易的標的從數據直觀可見的信息價值轉變爲融合計算價值,即多方數據通過算法,結合算力進行運算,最後得出計算結果,實現特定業務價值。”李宗勇解釋。

平安集團首席科學家肖京認爲,在傳統的數據交易中,數據交給第三方很容易被複制篡改,導致所有權受到損害。而在隱私計算的支持下,第三方無法獲取原始數據。交易標的從信息價值轉變爲計算價值,“這就相當於把數據的所有權和使用權分開了。”

談到隱私計算在數據交易中發揮作用的環節,李宗勇表示,隱私計算主要在數據流通和融合的環節發揮作用,是支撐業務實現的技術底座。劉崢進一步解釋,“在流通、融合之前需要對數據進行分類分級,凡是涉及個人隱私或商業祕密的數據,都需要經過隱私計算技術的處理。”

“隱私計算是支撐數據交易的核心技術,也是數據服務市場的底層基礎設施。”肖京強調。

隱私計算離真正落地還需要時間

目前,業界主流的隱私計算技術主要分爲三類:第一類是以多方安全計算爲代表的基於密碼學的隱私計算技術——姚期智爲解答“百萬富翁”問題研發出多方安全計算,可在無可信第三方的情況下,多個參與方共同計算一個目標函數,且保證每一方僅獲取自己的計算結果,無法通過計算過程中交互數據推測出其他任意一方的輸入數據。

第二類是以聯邦學習爲代表的人工智能與隱私保護技術融合衍生的技術——可實現在本地原始數據不出庫的情況下,通過對中間加密數據的流通與處理來完成多方聯合的機器學習訓練。

第三類是以可信執行環境爲代表的基於可信硬件的隱私計算技術——通過軟硬件方法在中央處理器中構建一個安全區域,保證其內部加載的程序和數據在機密性和完整性上得到保護。

那隱私計算到底是如何保護隱私的呢?肖京舉例進行了講解,比如爲了實現兩方數據相加測算總額,但同時不泄露任何一方的數據,可以將每方的數據分拆後加密(比如100可拆分成70+30,對70進行加密),只傳分拆加密後的部分數據給對方,然後在不解密的情況下,使用隱私計算技術,各自方將對方傳來的、加密的部分數據和自己未傳出的、加密的部分數據相加,得到各自的部分和之後,再傳到第三方中控服務器,相加得到最後的總和。這樣就在數據不出本地、保證不泄露的情況下,實現了相加測算。

2022年1月,國務院辦公廳印發的《要素市場化配置綜合改革試點總體方案》中提出,要探索“原始數據不出域、數據可用不可見”的交易範式。

無論是從政策支持還是業界期待來說,隱私計算可謂前景光明,但它能在短時間內撬動數據要素市場嗎?

“這還需要一個過程。”王雲河表示,目前隱私計算在本領域和信息安全圈相對火爆,但還未“出圈”。數據交易涉及領域、行業衆多,隱私計算還需要更多圈層的認知和接受;另外,從“知道到真的敢落地使用,也還有一定的距離”。他強調,這牽涉到政策對隱私計算的態度以及監管對數據流通交易相關紅線劃定的問題

除了外部因素,隱私計算自身也存在短板。從上述實例可以看出來,隱私計算技術的算法設計嚴謹、流程複雜,需要經過大量的加解密過程,這些都是“很耗算力的”。肖京表示,僅聯邦學習建模時的單次模式迭代耗時就成指數級增長,“如果不解決算力問題的話,數據交易的市場規模也會受到限制。”他強調。  

相關文章