智東西5月8日消息,昨日,OpenAI宣佈正在開發一款名爲媒體管理器(Media Manager)的工具,旨在讓創作者能夠更好地控制其原創內容在生成式AI訓練中的使用方式。OpenAI可以通過媒體管理器識別內容創作者的作品,並按照他們的要求將這些作品納入或排除在AI研究或訓練之外。

OpenAI計劃2025年之前將該工具投入使用,可能會通過公司最近加入的C2PA(內容來源和真實性聯盟)的行業指導委員會,聯合創作者、內容所有者和監管機構共同制定一項標準。OpenAI在公告中寫道:“作爲有史以來的第一個此類工具,媒體管理器需要大量的學習研究,來幫助我們識別多個來源的受版權保護的文本、圖像、音頻和視頻,並反映創作者的偏好。”並稱隨着時間的推移,他們會推出更多的選擇和功能。

無論最終採用何種形式,媒體管理器似乎都是OpenAI對其開發AI的方式日益受到批評的回應,即嚴重依賴於從網絡上收集公開可用的數據。最近,包括《芝加哥論壇報》在內的八家美國著名報紙以侵犯知識產權爲由,對OpenAI提起訴訟,指控其竊取文章用於訓練生成式AI模型,並且在沒有補償或署名的情況下商用。

以ChatGPT爲代表的生成式AI大模型,通常都是利用來自公共網站和數據集的大量數據進行訓練。這些生成式AI公司認爲,基於公平使用的法律原則,他們有權從公共數據中獲取並用於模型訓練。但並非所有人都這樣認爲。

事實上,OpenAI認爲,如果沒有版權材料,就不可能創建有用的AI模型。但爲了回應批評人士,並在未來的訴訟中爲自己辯護,OpenAI已採取措施,與內容創作者達成妥協。

去年,OpenAI允許藝術家“選擇退出”,對於他們不希望用於訓練圖像生成模型的數據進行刪除。公司還允許網站所有者通過robots.txt標準對其網站內容進行指示,選擇是否可以用來訓練AI模型。

OpenAI將繼續與新聞機構、媒體庫、問答網站等海量數據管理者簽訂許可協議,但一些內容創作者表示,OpenAI做得還不夠。藝術家們認爲OpenAI的圖像選擇退出工作流程太過繁瑣,對於要刪除的圖像都需要提交單獨副本以及描述,並且OpenAI爲授權內容支付的費用也相對較少。另外,OpenAI也在公告中承認,公司目前的解決方案無法解決創作者的作品在其他無法控制的平臺上被引用、二次創作或轉發的情況。

除了OpenAI之外,其他大模型公司也正在嘗試爲生成式AI構建來源標註和選擇退出工具。初創公司Spawning與其合作伙伴Stability AI和Hugging Face等共同構建了一款應用程序,可以識別和跟蹤機器人的IP地址以阻止抓取嘗試,並且提供一個數據庫,藝術家可以在其中註冊自己的作品,阻止AI供應商用於大模型訓練。Steg.AI和IMATAG公司也通過應用人眼無法察覺的水印來幫助創作者建立圖像的所有權。另外,芝加哥大學開發了一種名爲Nightshade的工具,可以使AI圖像生成器無法使用未經許可的圖像進行訓練。

結語:OpenAI推出媒體管理器,助力AI訓練數據應用規範化

AI大模型嚴重依賴大量公開可用數據,其使用方式容易侵犯內容創作者的知識產權,OpenAI推出媒體管理器,使內容創作者能夠控制其作品在AI研究和訓練中的使用方式。

作爲AI大模型引領者,OpenAI這一做法或許會助力AI訓練數據應用走向規範化,加快AI大模型迭代升級。

本文來自微信公衆號“智東西”(ID:zhidxcom),作者:龐小春,編輯:香草,36氪經授權發佈。

相關文章