審視人臉識別：一種AI技術的全球性濫用

來自 MegaFace 數據集拼貼圖。圖片出處：Adam Harvey /megapixels.cc

作者 Admin

2020 年的NeurIPS和往屆有所不同。除了在線上舉辦，不同還在於組委會提出了一個新的投稿要求：作者需要在投稿論文中單獨擬一個 “影響陳述” 章節。

該章節必須討論文中工作將帶來的更廣泛影響，包括可能帶來的正面或負面的社會影響。“評審員和地區主席的評估將僅基於技術貢獻進行。但是，如果將某篇論文標記包含潛在的道德問題，則該論文將被髮送給另一組以道德評估和機器學習爲專長的審閱者。這些論文的最終接受還取決於第二批審稿人的正面評價。”NeurIPS 2020通訊主席Michael Littman如此表示。

這也是AI頂會首次採用這種評估作法。但NeurIPS不是唯一一個有此要求的場合。

同樣在今年，Nature Machine Intelligence雜誌也提出：機器學習論文作者在文中加入對研究更廣泛的社會影響和道德承諾的聲明。

甚至有人在審視自己的AI研究之後已經無法承受某種道德瑕疵。

今年早些時候，YOLO系列（v1-v3）作者 Joe Redmon 宣佈，因爲無法忽視自己工作帶來的負面影響，他決定退出計算機視覺領域，不再進行該方向的研究。此前，Redmon 曾與 Ali Farhadi 共同創建了 YOLO 實時物體檢測系統，後者的公司 Xnor 最近被蘋果收購。

這些信息並不是獨立的故事線。最近，Nature 官網連續刊登 3 篇文章，集中反映了以人臉識別爲代表的 AI 技術濫用及其效應。這三篇文章分別是《Is facial recognition too biased to be let loose？》、《The ethical questions that haunt facial-recognition research》和《Resisting the rise of facial recognition》。

顯然，一場比以往更大範圍的對AI技術合理使用（尤其是人臉識別）的批判正在展開。

人臉識別問世所走過的 60 年

人臉識別技術的起源可以追溯到1960年代。

當時，一位名叫 Woodrow Wilson Bledsoe 的計算機科學家首次使用電磁脈衝對人臉進行了測量，進而得以把人臉數據輸入到測量系統中，將一張新的未知面孔與先前輸入的照片的數據點進行比較。以我們今天的技術標準來看，那個系統的運行速度自然是非常慢，但事實證明，這一想法是很有價值的。很長一段時間內，由於 Bledsoe 的研究有情報機構的贊助，使得其對於人臉識別技術基本緘口不言，直到 2000 年以後 CIA 逐漸解密，Bledsoe 才被公認是最早研究人臉識別技術的科學家。

Bledsoe 的發明之後，技術的改進集中在如何增加人臉測量點上。1970 年代，Goldstein、Harmon 和 Lesk 三人建立了 21 個人臉測量點；1980 年代，研究人員使用線性代數使用了大約 100 個人臉測量點，人臉圖像的低維表示進一步鋪平道路。

1990 年代，第一個基於圖像的粗略自動人臉檢測誕生，人臉識別也從強調人臉特徵識別逐漸走向了人機交互。期間不但誕生了若干代表性的人臉識別算法，美國國防高級研究計劃局（DARPA）和美國國家標準技術研究院（NIST）更是推出了著名的人臉識別技術（FERET）項目，研發最先進的人臉識別算法和數據庫。主要目的便是用於安全監控。這也爲人臉識別引發全球轟動的時間線埋下伏筆，例如 2011 年時的本拉登事件：基地組織負責人 Osama bin Laden 在美國突襲中被殺後，最終由軍方的人臉識別算法成功辨認。

21 世紀的第二個 10 年，基於深度學習神經網絡的當代人臉識別技術勢如破竹。

與仍需要人工操作的人機交互階段相比，人臉識別的自動化程度和精確度都更高。在這個新的歷史時期，企業開始大量投入其中，從而進一步推動人臉識別走向商用市場：雲端——2010 年起，Facebook 招募了圖像身份自動標記人員，從那時開始，FB 平臺上每天有超過一百萬張照片被上傳和標註；終端——諸如 Windows Hello 和 Android 的 Trusted Face，將人臉識別作爲一種安全功能集成到了個人設備中，然後在 2017 年推出了 iPhone X 和 Face ID。到了 2017 年，iPhone X 成爲全球最暢銷的帶有人臉識別功能的手機。

當人臉識別大規模鋪開使用摁下了加速鍵之後，越來越多人意識到，人臉識別的方向和速度產生了偏差。

抵制人臉識別的關鍵詞之一：

偏見

根據任務，現代人臉識別系統可以簡單劃分爲兩類：將人臉與大型數據庫進行匹配的一對多識別系統以及更簡單的一對一驗證系統。相較前者，一對一驗證只涉及確認一個人與自己的照片相匹配，主要應用於解鎖智能手機、護照檢查之類的場景。

一個典型的人臉識別系統，第一階段會在圖像中定位一個或多個人臉角度。例如，在各種照明條件下和從不同角度觀看監視攝像機饋送中的人臉，下一個任務是 “標準化” 人臉，將被拍攝對象旋轉爲正面，保證照明良好的視圖。這產生了一組人臉 “特徵”，可以與從現有人臉數據庫中提取的人臉 “特徵” 進行比較。通常包括在受控條件下拍攝的照片，例如警方使用的照片。由於要素表示形式是結構化的文件，計算機可以快速掃描數百萬個文件以找到最接近的匹配項。

無論是哪一類任務，自大約 10 年前將 “深度學習” 技術引入該領域以來，識別的準確性得到了極大提高。但是，這是否意味着人臉識別足夠用於現實世界？

在人臉識別領域，有一個已經進行了 20 餘年重要的基準測試。那就是由美國國家標準技術研究院（NIST）主導的國際權威人臉識別供應商測試 FRVT （Face Recognition Vendor Test）。

NIST 擁有規模達到百萬量級的人臉數據，且均來自真實業務場景。NIST 會根據自己的圖像數據集來衡量學術機構或者企業提交的人臉識別系統性能。由於測試數據不公開（盲測），參賽的算法團隊無法利用測試數據做模型訓練，相對於 LFW、MegaFace 而言，FRVT 則更能體現測試的公正性。

2019 年下半年，NIST 發佈了一份報告，描述了人臉識別在 2018 年期間的巨大進步，包括一對多搜索和一對一驗證兩大任務。NIST 圖像小組負責人的電氣工程師 Craig Watson 表示：“我們發現人臉識別的準確性有了顯着提高，這很大程度上是得益於卷積神經網絡的出現。”

NIST 發現，算法現在可以從戶外拍攝的個人資料圖像中識別出人，並與數據庫中的正面視圖相匹配，其準確度已經和十年前最好的人臉識別軟件識別正面圖像相同。NIST 研究人員寫道，“這在人臉識別的長期研究中是一個里程碑”。

但是 NIST 也證實了 2018 年一項捅破了 “紙窗戶” 的研究。

2018 年，計算機科學家 Timnit Gebru（美國人工智能領域僅有的幾位黑人女性計算機科學家之一。）發表的研究結果，首次揭示了商業人臉識別系統的缺陷：人臉識別針對黑人、女性的錯誤率高達 21%~35%，而針對白人、男性的錯誤率則低於 1%。黑人女性有 20%~30% 的概率被識別錯誤，產生誤會。也就是說，如果是在警用安保等場景下，後果可能會非常嚴重。

NIST 的數據庫顯示，被歸類爲非裔美國人或亞洲人的面孔，比被歸類爲白人的面孔被算法誤認的可能性高 10-100 倍。與男性相比，女性被誤判的概率會更高。

NIST 科學家 Watson 說，這種不準確性很可能反映了每家公司訓練數據庫的組成不平衡。數據科學家通常將這種不平衡描述爲 “垃圾進，垃圾出”。

因此，大量要求暫停或禁止人臉識別軟件的呼籲，都會頻繁經常提到對人口統計學偏見的擔憂。

甚至在今年 6 月，全球最大的計算機科學學術共同體 ACM 也發表聲明，敦促私人和政府停止使用人臉識別技術，因爲 “基於種族，種族，性別和其他人類的明顯偏見特徵”，將損害特定人口羣體的個人權利。

抵制人臉識別的關鍵詞之二：

隱私

除了放大人類現有社會系統的偏見，對侵犯個人隱私的擔憂，形成另一股強大的反對聲浪，矛頭直指大型科技公司。

衆所周知，一個人臉識別系統要發揮作用，還需要通過大型圖像數據集進行訓練和測試。理想情況下，需要在不同的光照條件下和不同的角度多次捕獲人臉圖像。沒有大量數據的情況下訓練人臉識別算法的普適方法，仍未出現。

那麼，這些數據從哪來？

1990 年代和 2000 年代，科學家們收集研究所需的數據一般會通過招募志願者的方式。但現在，這個光榮傳統幾乎退出歷史主舞臺了，大多數機構未經許可就進行人臉數據採集。

2015 年，斯坦福大學的科學家基於舊金山一家咖啡館的網絡攝像頭，發佈了一組 12，000 張圖像集。第二年，杜克大學的研究人員發佈了超過 200 萬個視頻幀（85 分鐘），記錄了在大學校園中行走的學生的鏡頭。

2016 年，雷德蒙德微軟研究院發佈了世界上最大的公衆人物數據集 MS Celeb ，包含從互聯網上搜刮的近 100，000 個人的 1000 萬張圖像，其中包括記者、音樂家和學者。

版權所有者許可，並不等同於照片中的被拍攝者許可。人臉照片屬於生物識別數據，按照歐盟 GDPR 的規定，處理此類數據須徵得當事人的明確同意。不僅如此，MS Celeb 發佈之後，有研究人員發現，其所收錄的已不僅僅是名人照片，還有一些普通人的照片。《金融時報》曝光稱，信息安全記者 Kim Zetter、技術作家 Adam Greenfield、負責消費者隱私保護事務的原美國聯邦貿易委員會專員 Julie Brill 等人都在其中。

這些人完全沒有意識到自己的人臉照片被收錄到了這些數據集中。這就像是，你永遠都不知道，你在何時何地，在經過哪一個攝像頭的時候，成爲了某個訓練數據集一部分。

“我並不是公衆人物，沒有任何道理放棄自己的隱私權。”Adam Greenfield 聲討道。

微軟回應，MS Celeb 僅被用於學術用途。但公開資料顯示，多家公司使用過 MS Celeb 進行算法訓練，如英偉達、IBM、松下、日立等。在那次風波中，微軟表示已經刪除 MS Celeb，但 Adam Harvey 指出，這些數據並不會完全消失。他說，一旦數據被髮布、被下載，它就存在於全世界的硬盤上，微軟根本無法阻止人們根據自己的目的發佈和使用數據。

現在，美國的一些州已經確定，商業公司未經其同意使用人臉這樣的個人生物識別數據是非法的。伊利諾伊州還允許個人對此提起訴訟。

例如 Fcebook 就已同意支付 6.5 億美元，以解決伊利諾伊州集體訴訟案，該訴訟案涉及一系列被用於人臉識別的非公開照片。總部位於紐約 Clearview AI（傳該公司的人臉系統已經抓取到 30 億張在線照片，併爲警方和富豪提供定製服務），也正在面臨人臉數據違規採集和使用的集體訴訟。

“我不擔心政府，我擔心谷歌和臉書”。北卡羅萊納州威爾明頓大學的教授 Karl Ricanek 曾如此說道。

“我認爲，他們比政府擁有更多的公民信息，而且我們無法動搖這些公司的領導地位。我認爲我們的政府至少還有着良好的使命。從學術角度來看，我們正在努力解決一些問題以讓世界變得更好，而不是大多數人想着賺錢。”

這些存在感愈發強烈的聲音，也促使着該領域的一部分研究者重新反思。

開始分化的學界

今年，針對人臉識別研究存在的棘手倫理問題，Nature 對全球 480 位從事人臉識別 / 計算機視覺 / 人工智能工作的研究人員進行了一次問卷調查。

這也是 Nature 首次進行這類性質的調查。結果顯示，該領域的學者已經出現觀念分化：一些科學家十分關注該領域的工作道德規範，但另一些科學家仍然認爲學術研究沒有問題。在某些問題上，受訪者表現出明顯的偏好。

當被問及對將人臉識別用於預測個人特質（例如性別、性別認同、年齡或種族）研究時，約三分之二的人表示，此類研究應在數據被收集者同意的情況下進行，或與可能受影響的羣體的代表進行充分溝通。

但是在這以外的問題上，分歧明顯出現。大約 40%的受調查學者認爲，在收集人臉數據之前，研究人員應徵得個人的知情同意，而超過一半的人認爲這並不必需。

瑞士馬蒂尼 Idiap 研究所生物識別小組負責人 Sébastien Marcel 認爲，研究人員應獲得知情同意，但實際上卻很難保證。他所在的小組不會在網絡上抓取人臉圖像，但是會使用其他人已發佈的在線圖像數據集。“許多研究人員會迴避這件事：他們認爲這不是他們的問題”，他說。

Springer Nature 期刊政策總監 Ed Gerstner 說，出版商正在考慮採取何種措施來阻止研究使用不經被採集者明確授權的數據集。

Nature 調查還詢問該領域的研究者，即使獲得知情同意，對敏感人羣（如受到嚴密監視的難民或少數羣體）的人臉識別研究是否仍然存在倫理問題。總體而言，71%的人表示同意。

一些持相反觀點的研究者，則試圖在學術研究和人臉識別的使用方法之間做出區分。他們強調，重點應該放在譴責和限制人臉識別的不道德應用上，而不是限制研究。

倫理學家自然認爲這種區分是幼稚的。“這是一種 ‘ 我只是個工程師 ’ 的心態，但現實已經遠遠超越了這個界限。” 康奈爾大學的社會學家 Karen Levy 評價道。

那麼，AI 學界應該對有道德問題的研究採取什麼措施？

最受歡迎的答案是，在同行評審的過程中，應該明確詢問該研究是否合乎倫理，例如該研究是否事先獲得倫理學機構的批准（例如 IRB，Institutional Review Board，FDA 等監管機構對生命科學實驗的管理採用了這種機制）。幾乎一半的受訪者認爲應該這樣做，另有四分之一的人認爲這取決於具體的研究。

顯然，本文開頭所提到的 NeurIPS 和 Nature Machine Intelligence 組織方，屬於前者。

Karen Levy 希望人臉識別的學者能早日意識到他們所從事的工作的含義。“這像是科學界真正覺醒的時代。人們更加敏銳地意識到，他們所研究的技術可能會被不當使用”，她說。

國內近日的一則熱聞，售樓中心應用人臉識別技術讓購房者多花了 30 萬元，一男子不得不戴着頭盔去看房。圖片出處：互聯網

Refrence：

[1]https：//www.nature.com/articles/d41586-020-03186-4？WT.ec_id=NATURE-20201119&utm_source=nature_etoc&utm_medium=email&utm_campaign=20201119&sap-outbound-id=019328369D84347F1430B510799D96391BEF27DF

[2]https：//www.nature.com/articles/d41586-020-03188-2

[3]https：//www.nature.com/articles/d41586-020-03187-3#ref-CR2

[4]https：//www.ft.com/content/cf19b956-60a2-11e9-b285-3acd5d43599e

審視人臉識別：一種AI技術的全球性濫用

來自 MegaFace 數據集拼貼圖。圖片出處：Adam Harvey /megapixels.cc

圖片出處：FRVT

國內近日的一則熱聞，售樓中心應用人臉識別技術讓購房者多花了 30 萬元，一男子不得不戴着頭盔去看房。圖片出處：互聯網

熱門新聞

週熱門

審視人臉識別：一種AI技術的全球性濫用

來自 MegaFace 數據集拼貼圖。圖片出處：Adam Harvey /megapixels.cc

圖片出處：FRVT

國內近日的一則熱聞，售樓中心應用人臉識別技術讓購房者多花了 30 萬元，一男子不得不戴着頭盔去看房。圖片出處：互聯網

方正證券：蘋果人工智能佈局全面深入 未來產業鏈將迎來板塊性機會

美股最火板塊：“防守與AI”兼備的公用事業

卡位谷歌 OpenAI的神祕新品是什麼？最新猜測：多模態AI助理

香港券商天風國際宣佈將探尋區塊鏈和AI領域投資機會

Maelstrom Fund：Flare FDV目前是Chainlink的23%，但“可能被低估”

華爲政企部領導蒞臨開普雲交流AI大模型一體機

dYdX：dYdX Chain完全去中心化，由社區管理

AI音樂時代降臨 幾家歡喜幾家愁

谷歌I/O開發者大會前瞻：遭遇OpenAI、微軟夾擊 大戰一觸即發

盛況難複製！這一ChatGPT“勁敵”上線蘋果商店首周 市場反響冷清

知情人士：Polychain Capital正向旗下兩隻基金投資者支付款項

多鏈質押平臺StakeGain完成50萬美元種子輪融資

BNB Chain高風險DappBay警報列表新增i3D Rapid

所有人都想知道蘋果如何“AI化”？答案出來了：Siri！

OpenAI澄清下週不會發布搜索引擎，業內仍質疑AI搜索引擎成熟度

熱門新聞

週熱門

　　國內近日的一則熱聞，售樓中心應用人臉識別技術讓購房者多花了 30 萬元，一男子不得不戴着頭盔去看房。圖片出處：互聯網

方正證券：蘋果人工智能佈局全面深入未來產業鏈將迎來板塊性機會

AI音樂時代降臨幾家歡喜幾家愁

谷歌I/O開發者大會前瞻：遭遇OpenAI、微軟夾擊大戰一觸即發

盛況難複製！這一ChatGPT“勁敵”上線蘋果商店首周市場反響冷清