人臉數據收集容易,監管卻是難上加難。

在AI換臉軟件ZAO和曠視校園人臉識別的風波後,17萬人臉數據被公開掛在網上商城出售的消息“接踵而至”,人臉突然成了“危險品”。

無處不在的人臉識別,當採集人臉數據的渠道越來越廣,很多人會疑惑,我們的人臉數據最終都流向了哪裏?

在刷臉解鎖手機,付款,進出入高鐵站、機場的時代,你的臉可能在研究人員的數據集中,也可能在暗網的黑產交易中,也可能被Deepfake後換到了另一個身體上……

人臉數據都去了哪兒?數據集或成爲隱患

AI時代下,科技公司會通過數十億張人臉圖片的訓練來改進面部識別算法,你的臉很有可能就是“訓練樣本”之一,那麼軟件公司又通常從哪些渠道獲取人臉圖像“餵養”自家的算法呢?

早年,人臉識別還沒有進入到深度學習的階段,人臉數據收集還是打着隱私的烙印,研究人員需要獲得志願者同意,才能採集人臉數據納入到數據庫中。比如早期由耶魯大學計算視覺與控制中心創建的Yale人臉數據庫,只包含了15位志願者的165張圖片。

但是到了後期,尤其是深度學習技術的快速應用普及,幾百張志願者的人臉對於數據訓練來說只是杯水車薪,人臉數據的收集也開始走向不可控。

人臉數據集通常情況下是爲圖像識別賽事準備的,比如微軟的MS Celeb 1M,這個由微軟在2016年發佈,包含了10萬個名人,近1000萬張面部圖片的數據庫,就是用來服務當時最高水平圖像識別賽事之一的MSR IRC。

太可怕!你的

同樣還有業界“黃金標準”之稱的人臉識別算法測試FRVT,其背後由美國國家標準與技術研究院(NIST)提供人臉數據集支持。

此時以學術研究爲目的的人臉數據集還處在可控範圍內,但是到了後期,誰也無法控制這些人臉數據到底被用作什麼,數據訓練之外,它又流向了哪裏?

如果我們在搜索引擎裏鍵入關鍵詞“人臉數據集”,會發現海量的人臉數據庫可以被下載獲取,就像在網上下載資源一樣,輕點一下,跳轉到下載軟件,幾個G的人臉數據包就“屬於”你了。

太可怕!你的

成千上萬張被標記的人臉數據,如此輕易被獲得,細思極恐。問題隨之而來,數據集中的人臉到底從何而來?

鎂客網粗略統計了幾個包含人臉數據較多,且常用的人臉數據集,從發佈機構來看,多爲科技公司和高校,獲取渠道有三個:1、爬取互聯網數據;2、源自雅虎旗下網絡相冊Flickr;3、新聞機構、商業公司等。

太可怕!你的

這些人臉數據集有的已經做好標註,囊括了人臉關鍵點檢測、人臉表情、人臉年齡和性別、人臉姿態等信息。

多數數據集在開放的時候,都會寫上不可商用的補充協議,強調是在知識共享許可(CC協議)下抓取和搜索圖像,根據CC協議中:照片可以重新用於學術研究,但照片中的人物並不一定授權許可,而是版權所有者授權。然而數據集公佈後,發佈機構也無法掌管它的使用。

太可怕!你的

不然,微軟也不會在被媒體大面積曝光後,悄悄地刪除了這個世界上最大的公開人臉識別數據庫。之後另外兩個學術單位也刪除了相關的數據集:分別是杜克大學的Duke MTMC監控數據集,和斯坦福大學的Brainwash數據集。

當初衷是爲了推動學術研究的人臉數據集,都有被商用以及濫用的風險,更何況那些源自其他渠道的人臉數據。

以人臉數據買賣爲例,早在2016年,知乎上就出現了網友在淘寶買人臉數據的話題。除了網上商城之外,人臉數據也可以從售賣面部數據的商業公司處獲得,比如一家名爲Vigilant Solutions的公司就提供1500萬張面孔,可以用來“解決”人臉識別軟件訓練的難題。

至於這些人臉又源自哪裏,恐怕和上述幾個渠道脫不了干係,也有可能是直接下載的公開數據集進行轉賣。

太可怕!你的

人臉數據被賣了也好,流向人臉數據集也罷,歸根結底,後續的應用是完全失控的。

“裸奔”的人臉數據,防不勝防的風險

如果早期我們收集人臉數據還是在志願者的知情同意下獲取,後期就完全摒棄個人隱私,直接通過爬蟲程序,美其名曰要遵守共享知識協議,但很多人在上傳自己的照片到社交平臺、互聯網相冊的時候,壓根不知道這些圖片已經被納入了這個協議下。

就像前陣子掀起軒然大波的ZAO,在密密麻麻的用戶協議中,一排不起眼的條款提到“同意授予ZAO及其關聯公司以及ZAO用戶全球範圍內完全免費、不可撤銷、永久、可轉授權和可再許可的權利”,如果沒有後續的風波,你的人臉數據悄然無息間就被“賣”了。

當前,收集人臉的途徑非常多,除了政府部門的安保需要,很多商業場景也都要求使用面部識別。比如參加某個大型會議,主辦方需要提供個人照片提前錄入到人臉識別系統;比如住酒店,需要面部識別確認;再比如一些社交APP,自動識別標記上傳圖片中的人臉;還有一些披着相冊應用外衣,實際是收集人臉信息的軟件程序……

之前Facebook因“未經用戶同意,非法收集並存儲數百萬用戶的生物識別數據”被集體起訴,在今年9月,壓力之下的Facebook選擇停止在用戶的照片和標籤建議中默認使用面部識別功能。

太可怕!你的

當你把包含自己人臉的照片上傳到雲端,沒有人確保最終這些人臉數據可以被妥善保管。上傳到平臺,必然涉及到會不會保存到雲端,如果在雲端,數據最終流向何處呢?帶來的風險是什麼?

其實從人臉數據集的來源渠道也能瞭解到上傳面部照片到網上的風險是非常高的。

此前有媒體曝光,國內一家人臉識別公司發生大規模數據泄露事件,超過250萬人的數據可被獲取,其中包括姓名、身份證號碼以及照片。

今年年初,美國海關和邊境保護局收集的旅客照片和車牌照片讓一個外包公司泄露,而流出的數據已經被人掛在暗網上,可以免費下載。

類似新聞層出不窮,所以人臉數據引發的風險也非常高,當隱私信息被出售或者可被公開獲取後,人臉可以用於金融領域的詐騙、亦或是在換臉軟件下,被用在一些不當的場合下,比如將你的臉成小視頻的女主角。除此之外,圍繞人臉識別系統的種族歧視和偏見爭議,也引發了巨大爭議。

人臉保衛戰,收集容易監管難

有的時候,技術和應用會處在相悖的一個狀態,一方面,算法需要大量的人臉數據去優化,從而帶來更準確、安全、高效的識別,避免可能會發生的欺騙性行爲,另一方面,在優化算法的過程中又難以保證人臉數據的安全和不濫用,算法應用到場景中又會再次無限制收集更多的人臉數據,最終陷入兩難的局面。

研究人臉識別的技術公司非常多,從CV四小龍到谷歌、微軟、亞馬遜、阿里巴巴這樣的科技巨頭,它們藉助技術提高社會效率的同時,也會掉入輿論的旋渦中。

就在最近,繼支付寶要在三年投入30億推動刷臉支付後,有消息稱微信也將拿出100億補貼刷臉硬件設備的推廣,當人臉作爲常態的身份認證方式,保衛人臉安全也愈加重要。

太可怕!你的

但人臉數據收集容易,監管卻是難上加難,無論是國外還是國內,在人臉數據安全上都顯得憂心忡忡,美國的舊金山和薩默維爾已經通過立法的方式禁止在公共場所使用面部識別技術,其中舊金山是禁止警察和其他政府機構使用面部識別技術。這種一刀切的管理方式,雖然一定程度上規避了風險,但治標不治本。

國內的話,因爲人臉識別走進教室以及換臉軟件ZAO的病毒式傳播,不少人開始注意到人臉數據安全的問題。近日有消息,有關部門將發佈人臉識別領域相關金融標準,以明確人臉信息採集、傳輸、存儲、利用等環節的安全管理要求。

其實,談到如何保護我們的人臉數據,無外乎三個方面。除了個人提高安全意識之外,採集人臉數據的商業公司也需要通過技術手段保護數據的安全,監管部門則從制度層面加快相關法規標準的落地。

悲觀的想,技術是雙刃劍,雖然我們通過規則約束可以減少一定的風險,但有買賣,就有傷害,只要技術需要,你的人臉數據去哪兒了,被用作什麼,可能誰也不知道。

更多優質內容,請持續關注鎂客網~

太可怕!你的

相關文章