生成式AI熱潮掀起“淘數據熱”，背後風險有多大？

科技巨頭一邊爲獲取免費數據辯護，一邊悄然與數據所有者和平臺簽署授權協議，滋生了相關行業發展。

在2000年最鼎盛時期，Photobucket是全球頂級的圖像託管網站，一度擁有7000萬用戶，佔據了美國在線照片市場的近一半市場。

根據分析追蹤機構Similarweb的數據，如今只有約200萬人仍在使用Photobucket。但該公司首席執行官（CEO）倫納德（Ted Leonard）透露，目前正在與多家科技公司進行談判，以授權其130億張照片和視頻，讓科技公司用於訓練生成式人工智能（AI）大模型，使得這些模型能夠響應文本提示，生成新內容。目前談判的每張照片的價格在5美分~1美元之間，每條視頻的價格超過1美元，各個買家所需圖像、視頻的類型都存在差異。

“許多科技企業告訴我們，他們需要更多AI訓練數據。一位潛在買家想要超過10億個視頻，比我們平臺擁有的還多。突然之間，我們不再擔心沒生意可做，而是要抓耳撓腮地想，我們去哪裏弄那麼多數據？”他表示。

倫納德以商業機密爲由拒絕透露潛在買家的身份，但根據其透露的數據推算，其擁有的數據內容將價值數十億美元。Photobucket的境遇可謂該行業的縮影。除了對人才的競爭外，科技巨頭新一輪競賽還轉向了對AI訓練數據。生成式AI革命可能會給這類企業賦予新生命。但同時，這一競賽背後的數據仍存在一些風險。

生成式AI熱潮掀起“淘數據熱”

最初，谷歌、Meta和OpenAI等科技巨頭使用從互聯網上免費的大量數據來訓練生成式AI模型。這些科技公司表示，這樣做既合法，也合乎道德。並且，如果不能使用大量免費抓取的、在他們看來可“公開可用”的網頁數據，例如非盈利機構Common Crawl提供的數據，訓練AI模型的成本將難以承受。

但隨着生成式AI領域的熱潮和競爭加劇，他們開始面臨一系列來自版權持有人的訴訟和監管關注，同時也促使部分內容發佈者採取措施阻止科技公司的數據抓取。科技公司還開始需要解釋如何獲取並使用大量數據來訓練他們的模型。

也因此，在繼續爲自己的行爲辯護的同時，科技巨頭們也開始悄悄針對一些付費內容進行談判，涉及的內容從聊天記錄到那些已經式微的社交媒體應用程序所擁有的、被遺忘已久的個人照片和視頻等，使得相關隱性交易逐漸火熱起來。

例如，據媒體援引知情人士消息，在ChatGPT於2022年底推出後的數月內，Meta、谷歌、亞馬遜和蘋果等科技巨頭都與圖片平臺Shutterstock簽訂協議，以使用其數億張圖片、視頻和音樂文件進行AI模型訓練。Shutterstock的首席財務官亞哈斯（Jarrod Yahes）透露，與大型科技公司的最初交易額在2500萬~5000萬美元，大多數交易規模後來均有所擴大。一些較小的科技公司也加入了這一“淘數據熱”，在過去兩個月中加入談判。

Shutterstock的競爭對手Freepik也透露，已與兩家大型科技公司達成協議，授權擁有的2億張圖片檔案中的大部分，每張圖片的價格在2~4美分。公司CEO阿布拉（Joaquin Cuenca Abela）表示，目前還有五筆類似交易正在談判中，但他不願透露買家身份。

作爲Shutterstock早期客戶的OpenAI，還與包括美聯社、Axel Springer和湯森路透（Thomson Reuters）等至少四家新聞機構簽署了數據授權協議，以幫助訓練其AI大語言模型，但未披露具體細節。

Klaris law律師事務所的克拉里斯（Edward Klaris）稱：“目前，科技公司正競相爭取那些擁有私人數據版權的持有者，這些私人數據無法通過網絡免費抓取。”他補充稱，該事務所也正在爲私人數據持有者提供諮詢服務，涉及價值數千萬美元的交易，通過交易，這些數據持有者會將照片、電影和書籍檔案授權給科技公司，用於AI訓練。

對於上述情況，谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕予以置評，不過微軟和谷歌提供了包含數據隱私條款的供應商行爲準則。谷歌並表示，如果發現數據供應商違規，將立即採取行動，包括終止與其合作協議。

許多主要的市場研究機構表示，他們尚未開始評估這個不透明的、隱形的AI數據交易市場的規模，因爲在這個市場中，公司通常不會公開協議內容。少數正在試圖對該市場進行評估的研究機構，比如Business Research Insights，估計該市場目前價值約25億美元，預測在未來十年內可能增長至近300億美元規模。

內容來源“合乎道德”還是“風險很大”？

不僅僅是那些原本擁有數據的企業和平臺，這種隱形交易的火熱，還滋生出一個專注於AI數據生產的新興行業。相關企業的主業就是獲取例如播客、短視頻等現實世界內容的權利，同時建立一些短期合同工網絡，從零開始製作定製化的AI訓練類視覺和聲音樣本。

位於西雅圖的Defined.ai就是這類企業之一。其CEO巴拉戈（Daniela Braga）向媒體透露，已將數據授權給了一系列科技公司，包括谷歌、Meta、蘋果、亞馬遜和微軟。具體價格根據買家和內容類型而有所不同，通常爲每張圖片1~2美元，每個短視頻2~4美元，長片每小時100~300美元，文本每個單詞0.001美元；一些需要處理的圖像價格在5~7美元。Defined.ai會與內容提供者分享這些收入。Defined.ai的其中一位供應商，一位巴西的企業家表示，他向所獲取的照片、播客和數據所有者支付總交易額的20%~30%。巴拉戈強調稱，其數據“來源合乎道德”，會從數據使用者那裏獲得同意，並去除個人識別信息。

上述巴西供應商稱，他所持有的圖片中最貴的是用於訓練AI模型的、符合科技公司禁止的相關內容的圖片。爲了滿足這些要求，他從警察、自由職業攝影師和醫學生那裏獲取諸如犯罪現場、衝突暴力和手術的圖片，主要來源於南美洲和非洲。他的公司還僱傭了習慣於看到暴力傷害的護士，對這些圖片進行匿名化和註釋。

儘管通過數據、內容授權可以解決一些法律和道德層面的問題，但許多業內專家和企業負責人仍表示，將像Photobucket這樣的老牌互聯網平臺的陳年檔案作爲新一代AI模型的訓練素材，可能會引發一系列新的問題，比如用戶隱私問題。

過去，AI系統確實曾出現過複製其訓練數據中的某些細節內容並輸出的情況，比如帶有Getty Images水印的照片、一些媒體文章中的具體內容，以及真實的人物照片等。這意味着，人們多年前上傳的私人照片或個人想法，可能會在沒有任何通知或明確同意的情況下，被生成式AI作爲輸出結果廣爲傳播。

巴拉戈就表示，她會避免從像 Photobucket 這樣的平臺公司獲取內容，更傾向於從個人社交媒體大咖處獲取他們的原創內容，因爲後者對授權有更明確的主張。“我認爲從類似Photobucket這樣的平臺獲取內容的風險很大。如果AI模型生成了一些很像某人、但未經本人同意的照片，就會帶來問題和麻煩。”她稱。

即使是類似Reddit這樣的知名平臺，也因爲相關問題受到調查。今年2月，Reddit與谷歌達成一項協議，授權谷歌使用Reddit的平臺內容、數據來訓練其AI模型。但在3月進行首次公開募股（IPO）前夕，該公司披露，其數據授權業務正受到美國聯邦貿易委員會（FTC）的調查，並承認可能會違反隱私和知識產權法規。FTC在2月時，也曾警告企業不得追溯性地改變服務條款以用於AI訓練。對於Reddit披露的調查，FTC不予置評，也未透露是否還在調查其他AI訓練數據交易和相關平臺。