“清朗·算法綜合治理”督促整改信息繭房、算法歧視、大數據殺熟

部分常用算法模型的不可解釋性長期制約着算法的治理。解決思路有二:從易於解釋、可以治理的部分入手,或者不斷解耦算法、使之分離成各自皆易於解釋、可以治理的若干部分。前一思路對制度的影響更深:無論是域內首創的備案制度,還是域外以歐盟《人工智能法》提案爲代表的立法嘗試,都秉持了“可以說清之事,說清楚”的原則。後一思路則對技術發展頗有影響——實際上,解耦表徵學習本就是方興未艾的、解釋算法的進路之一。

數據表徵正赫然處於制度和技術思路的交叉點。一方面,由域外執法趨勢可見:表徵正日益成爲數據和算法間的執法連接點。數據的治理駕輕就熟,算法的治理歧路猶多。通過治理表徵,多國執法機構得以將治理工具和能力伸展到錯綜複雜的深度神經網絡內部。另一方面,無論是各類從表徵角度出發解耦算法的前沿發展,還是以特徵商店爲代表的,使得表徵標準化、可流通、可治理的產業趨勢,都足以擔當承載算法治理“過河”的河底石。

從Everalbum等案所見的治理新趨勢

Everalbum是一家爲用戶提供照片上傳和存儲服務的公司。此外,Everalbum還通過人臉識別算法,爲用戶提供照片分組管理服務。例如,假使人臉識別發現同一朋友出現在用戶的多張照片中,這些照片就自動歸入一組。Everalbum聲稱:只有用戶明確同意,纔會開啓這一服務。Everalbum還聲稱:一旦註銷賬戶,用戶的數據便都會被刪除。現實中,兩點都不成立:人臉識別實際是默認開啓;註銷以後,數據也不會完全刪除。

美國聯邦貿易委員會(以下簡稱FTC)因此調查Everalbum。雙方在2021年5月達成包含多方面整改措施的和解令。比較過往的FTC和解令,大部分措施並不陌生:糾正不實的陳述、刪除未經同意收集的數據、刪除註銷後本應刪除的數據、設立長期合規項目、定期提交合規整改報告,等等。與此同時,其中還有一類首次出現的措施:要求刪除基於前述數據開發的“工作產品”,包括相應的人臉嵌入和算法模型。前者即屬於人臉數據的表徵。

截至目前,儘管各國制度對算法的關切皆多,主要法域的實際執法仍少。對算法有深入分析說理,並處以切實處置措施的更少。作爲主要法域內主要執法機構的FTC的決定首次納入數據表徵,自然值得矚目。在報道這份FTC內部一致通過的和解令時,FTC官方也把嵌入這部分內容作爲突出的內容。

從更具體的角度看,這份和解令還有三則值得關注的細節。首先,按其官方報道,“與人臉識別技術的使用同時創建的人臉嵌入”屬於“個人信息”。這就在美國法下回應了前文的疑難。其次,在致世界隱私論壇的覆信中,FTC進一步在技術層面明確道:刪除所涵蓋的嵌入範圍非常廣泛,不僅包括“一串數字”形式的表徵,也包括以隨機分佈形式體現的“概率性人臉嵌入”。簡言之,FTC已經考慮了技術上形式相對複雜的表徵。最後,在同一覆信中,FTC還明確道:人臉表徵不僅包括基於人臉生成的表徵,還包括其他多模態的表徵,比如基於視頻的表徵。綜之,FTC執法範圍已足以覆蓋各類關切算法所依賴的表徵。

Everalbum案體現的執法趨勢不是孤例。2022年3月,FTC又調查了體重營養管理應用Weight Watchers。因Weight Watchers不當收集兒童個人信息,和解令同樣規定了諸多整改措施。其中也再一次出現了刪除“工作產品”,包括算法模型的類似要求。FTC主席Lina Khan在個人社交媒體上自豪地稱其爲兒童個人信息保護領域的“首創”。總而觀之,Everalbum當爲美國法下算法治理新趨勢的起點之一。表徵則是其中的突出組成部分。

Clearview AI案同樣瞄準數據表徵

作爲域外趨勢共通點的表徵,究竟是什麼?Clearview AI是一家核心業務完全圍繞人臉識別運行的公司。於是,自然也會涉及表徵。簡言之,Clearview AI先從社交媒體等多類來源爬取數以億計的照片,然後生成人臉矢量。矢量屬於表徵的一種。在此基礎上,Clearview AI再向各國執法機構提供人臉檢索匹配服務:執法機構提供人臉圖像,Clearview AI將其矢量化後,準確、迅速地在數十億張照片中尋得包含同一人的所有照片。這一業務業已行銷全球多地。

Clearview AI對作爲敏感個人信息的人臉的如此處理行爲,既未事先取得同意,也沒有提供易用、徹底的刪除措施。多國因此開展調查。其中,英國與澳大利亞兩大主要法域聯合展開的調查最具影響力。兩國2021年10月聯合發佈的決定不僅詳細解釋了何謂矢量(表徵),還展示了分析表徵法律性質的邏輯。

具言之,決定首先開門見山:本案中,“矢量是對所爬取圖片包含信息的數學表徵。”之後,決定從兩個角度展開矢量的法律性質,闡明爲何應當認定爲個人信息:其一,無論其他事實如何,本案中表徵人臉的矢量,總是對個人生理特徵的測度和記錄。且相應的生理特徵隨時間保持穩定、難以更改。其二,這些矢量的處理目的,終究還是從數十億張照片中“區別”、亦即“識別”出一個人。因此,即使矢量難以爲人所理解,單獨(不結合特定算法)也無法識別到個人,依然應當認定爲個人信息。循此,兩地適用於個人信息的各類制度規定,都可以自然地適用於衆多類型的表徵,進而伸展至依賴相應表徵的算法。

Clearview AI案因此具備兩方面重要意義。一方面,和Everalbum案一致,這是數據表徵開始納入主要法域治理範圍的起點之一。另一方面,兩地執法機關分析表徵的進路——綜合表徵內容及其處理目的而判斷,也和歐盟等地正在發生的、個人信息保護問題的分析範式轉變一致。執法機關不再單純圍繞可識別性糾纏,而是綜合考慮信息內容、處理目的甚或處理影響,從而對涉及新興復雜領域的案件做出妥帖判斷。這一轉變發生的範圍遠不止以上三地。

什麼是數據表徵?

恰如算法領域經典教科書《深度學習》所述:“信息處理任務是難是易,依賴於信息如何表徵。無論是對日常生活來說,還是對計算機科學和算法來說,這條一般性的原則都適用。”書中實例亦頗有啓發:同樣的信息,同樣是要做除法,用羅馬數字來表徵,遠沒有用阿拉伯數字表徵來得方便。由此,表徵至少具備三方面要點:一,同樣的信息,可以有多種表徵;二,不同的表徵,會影響信息處理任務的效率;三,由此,對不同的信息和處理任務,需要尋求高效的表徵。

這一尋覓路途,大致分兩個階段。不妨以徵信風控算法作爲簡單的示例。風控算法常以多類個體特徵作爲輸入。在第一階段,算法開發者需要手動篩選、調整,以製得最有用的特徵。之後,算法即可學習到不同特徵在風險預測中的權重。進入第二階段以後,基於豐富的個體特徵,算法能夠同時表徵相應特徵,並學習特徵權重。換句話說,算法很大程度上“接管”了信息表徵的設計。

制度層面所關切各類算法的進展,均受惠於這一轉變。除前述風控算法外,按Bengio等早已獲逾萬次徵引的經典綜述《表徵學習:綜述和展望》:無論是識別、檢測算法(如人臉識別),還是自然語言處理算法(如部分生成合成類算法),都因表徵的發展而迎來了“一連串可圈可點的實踐的勝利”。之外,域內外均着力治理的推薦算法,也相當依賴於算法自行習得的表徵。

表徵“可圈可點的勝利”,也帶來了相當的挑戰。按前言,高效的表徵需要與處理任務相適應。適應於後續算法處理的表徵,固然能提升徵信風控、人臉識別、生成合成和推薦算法的效率,但通常難以爲人所理解。實際上,對人而言,表徵通常只是一串不知所云的數字。於是,儘管制度上很容易判斷人臉是否特殊類別個人信息,並適用相應規定。一旦涉及人臉的表徵,是否個人信息,是否應當適用相應規定,就很難判斷了。對算法和數據治理而言,這裏有個“豁口”。

危中有機,老生常談。表徵雖然難解,作爲聯通常人能夠理解的信息和不可解釋的算法間的橋樑,一旦抓住這個“牛鼻子”,治理的工具和能力都能夠自然地“過橋”。這正是上述域外新近案例所體現的趨勢。

算法解耦、特徵商店與表徵的可治理化

技術和產業層面,解耦算法和治理表徵的努力也是如火如荼。由此導向的表徵可治理性,與制度的發展有着清晰的共同指向。

如前所言,新一階段的算法可以同時表徵特徵,並學習權重。僅追求算法性能時,這無傷大雅。然而,當算法治理進入“深水區”、解釋問題成爲“攔路虎”後,這一深度耦合又成了下一階段需要着力解決的障礙。當前算法解釋領域最重要的前沿問題之一,便是將表徵從算法中重新解耦出來。這意味着兩個層面的努力:之一,將算法表達成一系列彼此解耦的表徵的產物;之二,理解各相應表徵的含義。譬如,從當前無法理解的人臉嵌入或矢量中,將“眼睛”“鼻子”“嘴巴”等表徵找到,並將人臉識別算法表達成這些表徵的關係。相應問題進展頻繁。張拳石等學者將在今年CVPR口頭報告的研究,即附條件地實現了上述兩點。

並非所有數據表徵都與算法緊密耦合。實際上,許多常見算法依賴的表徵都很容易複用:從一個場景中的算法遷移到另一個場景的算法,甚或從一類算法遷移到另一類算法,等等。於是,表徵可以治理,也需要治理,以提升其複用率和算法整體的效率。無論是企業層面還是行業層面,通常稱爲“特徵商店”的表徵治理都可謂“正在發生”。在企業層面,特徵商店已成諸多企業數據基礎設施的組成部分;在產業層面,類似Hugging Face的、開源流通常見算法及相應表徵的嘗試,應屬產業發展最熱門方向之一。儘量展示覆雜算法和表徵的細節,令從業者共同使用、共同建設、共同享有,可謂新一波的算法自治理潮流。

一切都還未定局,遠航者不希望太早看到終點。雖然如此,無論是從算法解耦表徵,還是讓表徵標準化、可流通,都可以視爲令本來難以理解的表徵“說清楚”的努力。隨着這一趨勢持續,各國治理者將很快可以更加稱手地在決定裏使用數據表徵這一概念,並將其作爲日用工具之一。例如,假如算法能夠清楚地拆解成若干表徵,這些表徵也都已經標準化、可以從公開渠道瞭解,有關算法獲解釋(說明)權的衆多設想,自然具備了切實的抓手。

如上,數據表徵是一座視野所及保持通暢的橋,矗立在容易治理的數據和難以治理的算法之間。表徵因此成爲當下算法治理的“牛鼻子”。美國、英國、澳大利亞等地皆由此入手治理算法,前沿技術和產業發展層面亦在相同方向上配合攻堅。以爲鏡鑑,觀照域內,《互聯網信息服務算法推薦管理規定》第十條規定,“算法推薦服務提供者應當加強用戶模型和用戶標籤管理,完善記入用戶模型的興趣點規則和用戶標籤管理規則,不得將違法和不良信息關鍵詞記入用戶興趣點或者作爲用戶標籤並據以推送信息。”第十一條也提到“針對其個人特徵的用戶標籤”。最高人民法院《關於審理使用人臉識別技術處理個人信息相關民事案件適用法律若干問題的規定》第一條即規定,“人臉信息”屬於“生物識別信息”。《個人信息安全規範》也將“面部識別特徵”歸類到“個人生物識別信息”。這些觀點與FTC觀點“人臉表徵不僅包括基於人臉生成的表徵,還包括其他多模態的表徵,比如基於視頻的表徵”間,頗有可比較之處。儘管我國制度並未使用“嵌入”“矢量”“表徵”等概念,而是選擇了“標籤”“興趣點”“特徵”來入手,這些技術概念的用法並不區分國界,所承載趨勢也多有共通。因此,我們相信前述分析足以廣泛適用。

(作者:朱悅,王睿 編輯:陸躍玲)

相關文章