圖靈獎得主被罵到退推之後，MIT 因 AI 數據集涉嫌種族歧視致歉並宣佈永久下架

純粹的科學研究和保持倫理標準並不相斥。

MIT 道歉並永久下線含偏見內容的數據集

近日，MIT 計算科學與人工智能實驗室 CSAIL 宣佈永久下架一個高引用的用於訓練人工智能系統的數據集。因爲該數據集帶有一定偏見問題，其在訓練時可能使用涉及種族主義、女性歧視和其他有問題的術語。

據悉，該訓練數據集創建於 2008 年，包含 8000 萬張圖像。其中包括一個更小版本的圖像集（Tiny Images），有 220 萬張圖片，可以從 CSAIL 網站上搜索和閱讀。這個包括 220 萬圖像的可視化數據庫，連同完整的可下載數據庫，在週一從 CSAIL 網站上被移除。

該數據集主要用以產生更先進、精確的物體檢測技術，能夠教會機器學習模型自動識別和列出靜態圖像中描繪的人和物體。

本質上，它是一個巨大的照片集合，圖片帶有描述性的標籤，所有這些標籤都可以輸入到神經網絡中，教會它們將圖片的模式與描述性標籤聯繫起來。不過，該系統可能會對女性、黑人和亞洲人使用侮辱性語言。該數據庫還包含女性隱私部位的特寫照片，這些照片上標有“c”字。

應用程序、網站和其他依賴於使用 MIT 數據集訓練的神經網絡產品在分析照片和攝像機鏡頭時可能最終會使用這些術語。

這個數據集與 ImageNet 訓練集一起被用來作爲計算機視覺算法的基準。不過，與知名度更高的 ImageNet 不同的是，在此之前，還沒有人對這個圖像數據集中有問題的內容進行仔細檢查過。

硅谷隱私初創公司 UnifyID 的首席科學家 Vinay Prabhu 和愛爾蘭都柏林大學的博士候選人 Abeba Birhane 仔細研究了 MIT 的數據庫後發現，數千張圖片的標籤上帶有對黑人和亞洲人的種族主義辱罵，以及用於描述女性的貶義詞彙。

該圖顯示了 MIT 數據集中標有所選問題單詞的圖片數量。

他們在一篇提交給明年計算機視覺會議的論文中提到了一些細節，例如黑人和猴子的圖片標有“n”字；用粗糙的術語標註解剖部分等。這類圖像不必要將日常情景與侮辱性語言聯繫起來，並將偏見植入未來的人工智能模型中。

這是 220 萬張圖像數據集的可視化截圖。這裏展示了一些數據集的“妓女”標籤示例，出於法律和倫理原因，我們對其進行了馬賽克處理。這些照片包括一個女人，一個母親抱着她的孩子和聖誕老人的頭像照，色情女演員和一個穿比基尼的女人等

CSAIL 的電子工程和計算機科學教授 Antonio Torralba 對問題數據集做出回應。他表示，實驗室根本沒有意識到數據集中存在這些冒犯性的圖像和標籤。“我們真誠地道歉，並將數據集下線，以刪除違規圖片和標籤”。

在隨後的一份聲明中，CSAIL 表示道歉，並作出了永久下架涉事數據集的決定。

引起我們注意地是，Tiny Images 圖像數據集包含一些貶義詞分類和冒犯的圖像。這是依賴於 WordNet 中的名詞自動數據收集過程的結果。我們對此非常關注，並向可能受到影響的人們道歉。

由於數據集太大 (8000 萬幅圖像)，而圖像太小 (32 x 32 像素)，人們很難從視覺上識別其內容。因此，人工檢查，即使可行，也不能保證令人反感的圖像被完全刪除。

因此，我們決定正式撤銷數據集。它已脫機，並且不會重新聯機。我們要求社區將來不要使用它，並刪除可能已下載的數據集的任何現有副本。

爲圖像數據集註釋的詞彙庫 WordNet 存在隱患

CSAIL 實驗室承認，他們在沒有檢查是否有攻擊性圖片或語言的情況下，從互聯網上自動獲取了這些圖片。

Vinay Prabhu 和 Abeba Birhane 在研究論文中也提到，這些圖像是從谷歌圖像中被抓取來的，排列在 75000 多個類別中。

這個數據集包含 53464 個不同的名詞，都是直接從 WordNet 拷貝過來的。普林斯頓大學將英語單詞分類成相關集的數據庫，然後這些系統就會自動從當時的互聯網搜索引擎上下載相應名詞的圖片，並使用當時可用的過濾器來收集 8000 萬張圖片。

WordNet 是在 20 世紀 80 年代中期在普林斯頓大學的認知科學實驗室中創建的，這個數據庫基本上繪製了單詞之間是如何關聯的。不過，WordNet 中的一些名詞中帶有種族主義俚語和侮辱性詞彙。

幾十年後的今天，很多學者和開發人員將其作爲方便的英語詞彙倉庫。構建巨大的數據集時，需要某種結構，在這種情況下，WordNet 提供了一種行之有效的方法，爲計算機視覺研究人員分類和標籤他們的圖像。

伴隨着 WordNet 的廣泛使用，其包含的問題術語也困擾着現代機器學習。

作爲一個單詞列表，WordNet 本身可能沒那麼有害，不過當與圖像和 AI 算法結合在一起時，它可能會產生令人不安的後果。正如 Abeba Birhane 所說:“WordNet 項目的目的是繪製出彼此接近的單詞，但當你開始把圖片和這些詞聯繫起來時，你其實是在把一個真實的人的照片和那些有害的詞語聯繫起來，這些詞語會使人們的成見根深蒂固。”

ImageNet 也存在同樣的問題，因爲它也是使用 WordNet 進行註釋的。

在這些巨大的數據集中，有問題的圖像和標籤所佔的比例很小，很容易被當作異常現象而不予理會。然而，Vinay Prabhu 和 Abeba Birhane 認爲，如果這些材料被用於訓練現實世界中使用的機器學習模型，可能會造成真正的傷害。”缺乏對權威數據集的關鍵參與，會對女性、種族和少數民族以及處於社會邊緣的弱勢個體和社區造成不成比例的負面影響。”

這些羣體在 AI 訓練數據集中往往沒有得到很好的表示。這也是人臉識別算法在識別女性和膚色較深的人時遇到困難的原因。今年早些時候，底特律的一名黑人因被面部識別軟件誤認爲小偷嫌疑人，而被警察錯誤逮捕。

“人們不會考慮這些模型將如何應用，或者它可以用於什麼。“他們只是想‘哦，這是我能做的很酷的事情’。但當你開始深入思考時，你就會發現所有這些潛在的目的，並看到這些危害是如何顯現的”，Birhane 說。

像 ImageNet 這樣的大型數據集和 8000 萬張小圖片也經常在未經人們明確同意的情況下，通過從 Flickr 或谷歌圖片上抓取圖片來收集。Facebook 就僱傭了一些“演員”，這些“演員”同意將自己的面孔用於一個數據集，該數據集是爲了教軟件檢測電腦生成的僞造圖像。

Prabhu 和 Birhane 認爲，社交網絡的方法是一個好主意。學術研究不太可能有資金支付訓練數據。“我們承認，沒有完美的解決方案來創建一個理想的數據集，但這並不意味着人們不應該嘗試創建更好的數據集。

二人建議模糊數據集中的人臉識別，仔細篩選圖像和標籤以去除任何冒犯性的內容，甚至使用真實的合成數據來訓練系統。

反種族歧視浪潮在科技界進一步蔓延

MIT 的行動表明，這場由美國黑人跪殺事件而引發的反種族歧視浪潮進一步蔓延到了學術界。

近日，反種族歧視的抗議在美國科技界愈演愈烈，多位科技圈大佬受到了波及。

6 月 29 日，圖靈獎得主、Facebook 首席 AI 科學家 Yann Lecun 宣佈，自己將退出推特。在做出這一決定之前，他在推特上已經經歷了長達 2 周的“罵戰”，這令他不堪其擾。“罵戰”爭執的焦點在於帶有種族歧視傾向的 PULSE 算法引起爭議，而 Yann Lecun 被指責爲其辯護。

PULSE 算法由美國杜克大學科研團隊提出。該算法能夠將 16x16 像素的馬賽克人臉圖像，轉換爲 1024x1024 的高清圖像，分辨率提升高達 64 倍。新生成的人臉，毛孔、皺紋甚至一縷頭髮等細節都清晰可見，足以以假亂真。本質上，該算法是運用了“對抗生成網絡”（StyleGAN）工具，生成了看上去真實但實際上並不存在的人臉。

熱度剛起來沒多久，就有人發現了 PULSE 算法存在的巨大漏洞。有網友發現，輸入模糊的奧巴馬照片，輸出時卻變成了一張白人面孔，而同樣輸入其他黑人或亞裔人的模糊人臉圖像，輸出的無一例外都是白人頭像。這招致了廣泛的批評，ULSE 算法被指帶有嚴重的種族歧視傾向。

爭議四起之時，Yann LeCun 發了一條推特分析 PULSE 爲什麼會出現這樣的偏見 — 因爲訓練數據集存在數據偏差。

沒想到卻意外“引火燒身”，Yann LeCun 的言論引起了不少科技界人士的不滿，他們認爲，Yann LeCun 對於“AI 的公平性”的理解過於片面。

後來，Yann LeCun 連發 17 條推文解釋自己的立場，但反對者並不買賬。最後只能無奈宣佈退出推特。

Yann Lecun 之後，谷歌 AI 掌門人 Jeff Dean 緊接着成爲了下一個捲入風波的大佬。

事情的起因很有意思。哥倫比亞大學的一位黑人女性研究員、PresGAN 作者，Adji B. Dieng 因爲 DeepMind 舉辦的一場 GAN 普及課程中沒有提及她的研究成果 PresGAN 而感到不滿，她認爲其成果之所以被無視，主要是因爲她是一個黑人女性。而也是因爲種族歧視在，儘管她的論文已經發表 9 個月了，但被他人引用的次數僅有 3 次。

Adji B. Dieng 在推特上發文詰問 DeepMind。有一個理性的網友 Gwern 在去看了 Adji B. Dieng 的論文後發現，其論文水平不怎麼樣，引用次數少也在情理之中。Adji B. Dieng 也不甘示弱，她反譏 Gwern 是一個“優生主義者”。

Adji B. Dieng 還意外發現，谷歌的 AI 掌門人 Jeff Dean 竟然關注了 Gwern，於是她開始喊話 Jeff Dean，“你也關注了這個人，但我相信你不知道他是一個優生主義者”。就這樣，什麼也沒做的 Jeff Dean 被捲入到了輿論旋渦中。不少人質疑，Adji B. Dieng 這波操作有點強行“碰瓷”的意思。

從 Yann Lecun 推特、Jeff Dean 無辜 “躺槍” 再到 MIT 道歉，近期在科技界密集發生的輿論風波也在一定程度上表明，這場反種族歧視浪潮似乎有些變味了，變得有些混亂了。借用 Prabhu 和 Birhane 的一個判斷結束此文， 從事良好的科學研究和保持倫理標準並不相互排斥。

參考鏈接：

https://www.theregister.com/2020/07/01/mit_dataset_removed/

圖靈獎得主被罵到退推之後，MIT 因 AI 數據集涉嫌種族歧視致歉並宣佈永久下架

MIT 道歉並永久下線含偏見內容的數據集

爲圖像數據集註釋的詞彙庫 WordNet 存在隱患

ImageNet 也存在同樣的問題，因爲它也是使用 WordNet 進行註釋的。

反種族歧視浪潮在科技界進一步蔓延

熱門新聞

週熱門

圖靈獎得主被罵到退推之後，MIT 因 AI 數據集涉嫌種族歧視致歉並宣佈永久下架

MIT 道歉並永久下線含偏見內容的數據集

爲圖像數據集註釋的詞彙庫 WordNet 存在隱患

ImageNet 也存在同樣的問題，因爲它也是使用 WordNet 進行註釋的。

反種族歧視浪潮在科技界進一步蔓延

伊克羅德信息與墨奇科技戰略合作 以“RAG+向量數據庫”打法支撐生成式AI有效落地

【明日主題前瞻】英偉達聯手Zilliz發佈全球首個GPU加速向量數據庫

明日主題前瞻

創意信息(300366.SZ)：擁有操作系統、數據庫、大數據、人工智能、衛星互聯網等自主可控核心技術及軟件產品

馬斯克再談蘋果放棄造車：沒有特斯拉那樣龐大的數據庫

星環科技(688031.SH)：正在聯合產業鏈合作伙伴共同探索AIPC解決方案

中國10大銀行7家都在用 騰訊自主研發數據庫增幅第一

[公司]達夢數據科創板IPO獲證監會同意註冊批覆

當虹科技(688039.SH)：基於媒體數據庫的積累，未來可以在數據確權與數據要素的使用上覆蓋更多業務場景

科藍軟件：公司數據庫具有良好的支撐內存及並行計算架構體系，未來可較容易拓展成向量數據庫

數字化轉型與降本增效雙重驅動之下，國產分佈式數據庫成爲金融業主流選擇

OceanBase：“中國場景”推動樹立分佈式數據庫四項新標準

海量數據(603138.SH)：自主研發的Vastbase海量數據庫致力於提高數據庫的存算分離能力

*ST新海(002089.SZ)：業務暫未涉及到6G數據庫

通用動力部門獲價值9.22億美元的IT基礎設施合同

熱門新聞

週熱門

伊克羅德信息與墨奇科技戰略合作以“RAG+向量數據庫”打法支撐生成式AI有效落地

中國10大銀行7家都在用騰訊自主研發數據庫增幅第一