“數據荒”攔路AI訓練，海外科技巨頭招式頻出，無所不用其極！

來源：硬AI

在AI迅猛發展的大潮下，新聞報道、虛構作品、留言板帖子、維基百科文章、計算機程序、照片、播客和電影剪輯等網絡數據，越來越成爲人工智能行業的命脈。因爲創建創新系統取決於擁有足夠的數據，教會AI即時產生類似人類創作的文本、圖像、聲音和視頻。

有研究顯示，科技公司可能在2026年前就用完互聯網上的高質量數據，因爲這些公司使用數據的速度比產生數據的速度快，情況已經非常緊急。

爲了應對這一問題，包括OpenAI、Google和Meta等海外科技巨頭在蒐集數據方面，已經“無所不用其極”，有的甚至開始忽略公司政策以及規避隱私法律。

OpenAI：轉碼Youtube、“合成”數據

據報道，目前AI領域的領頭羊OpenAI在2021年末，已經耗盡了互聯網上所有可靠的英文文本資源，需要更多數據來訓練下一個版本的技術。當時，OpenAI的研究人員創建了一個名爲Whisper的語音識別工具。它可以轉錄YouTube視頻中的音頻，生成新的對話文本，使人工智能系統更加智能。

儘管這樣做可能違反YouTube規則，因爲YouTube禁止用戶將其視頻用於“獨立”應用，還禁止通過“任何自動化手段（如機器人、殭屍網絡或網絡抓取工具）”訪問其視頻，但OpenAI的團隊轉錄了超過一百萬小時的YouTube視頻。然後，這些文本被輸入到GPT-4的系統中，成爲最新版本ChatGPT聊天機器人的基礎。

媒體報道，OpenAI的員工知道他們正在涉足法律灰色地帶，但他們認爲用視頻訓練人工智能是合理使用。知情人士說，OpenAI的總裁格雷格·布羅克曼（Greg Brockman）就親自幫助收集YouTube視頻數據，以此爲基礎領導了開發GPT-4的團隊。

數據緊缺的問題，也讓OpenAI正在開發“合成”數據，即人工智能模型產生的文本、圖像和代碼，而非人類創造的數據。換句話說，這些系統從它們自己生成的內容中學習。

OpenAI創始人Sam Altman此前說，“合成”數據可以創造額外的數據來開發更好的AI版本，並減少他們對受版權保護數據的依賴。

但有分析認爲，建立一個可以自我訓練的AI系統說起來容易做起來難。從自己的輸出中學習的AI模型可能會陷入一個循環，其中它們加強自己的怪癖、錯誤和限制。

爲了應對這一問題，OpenAI和其他機構正在研究如何讓兩個不同的AI模型一起工作，生成更有用、更可靠的合成數據。一個系統產生數據，而另一個系統判斷信息，以區分好壞。研究人員對這種方法是否有效意見不一。

谷歌：修改隱私政策擴大數據來源

儘管一些谷歌員工知道OpenAI已經收集了YouTube視頻的數據，但他們沒有阻止OpenAI，因爲谷歌也使用YouTube視頻的轉錄文本來訓練其人工智能模型。這種做法可能侵犯了YouTube創作者的版權。因此，如果谷歌對OpenAI大做文章，可能會引起公衆對其自身方法的抗議，人們說。

去年，Google還擴大了其服務隱私條款，允許Google能夠使用公開可用的Google Docs、Google Maps上的餐廳評論和其他網上材料，爲更多的人工智能產品提供支持。

此前，谷歌的隱私政策規定，公司只能使用公開信息來“幫助訓練谷歌的語言模型並構建功能，如谷歌翻譯”，但新條款使谷歌可以利用這些數據爲其“人工智能模型及構建產品和功能，如谷歌翻譯、Bard和Cloud AI功能”。

Meta：版權問題上或鋌而走險

在AI領域一直處於追趕狀態的Meta，去年初遇到了與其競爭對手相同的障礙：數據不足。

有媒體報道，Meta的生成式人工智能副總裁Ahmad Al-Dahle告訴高管，他的團隊幾乎使用了互聯網上所有可用的英語書籍、論文、詩歌和新聞文章來開發模型，除非獲取更多數據，否則Meta無法與ChatGPT匹敵。

但要想獲得更多數據，版權保護的問題是躲不掉的。該公司去年討論了購買出版社Simon & Schuster以獲取長篇作品，他們還討論了從互聯網上收集版權數據的可能性，即使這可能意味着面臨訴訟，因爲與出版商、藝術家、音樂家和新聞行業協商許可證需要的時間太長。

有媒體透露，有Meta高管認爲，OpenAI似乎在未經允許的情況下使用了受版權保護的材料，Meta也可能會跟隨這一“市場先例”。

根據內部會議錄音，Meta的高管們同意依據2015年關於作家協會對谷歌的法庭裁決來操作。在那起案件中，谷歌被允許掃描、數字化並在在線數據庫中編目書籍，因爲谷歌爭辯說它僅在線上重現了作品的片段，並轉化了原作，這構成了合理使用。

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

“數據荒”攔路AI訓練，海外科技巨頭招式頻出，無所不用其極！

熱門新聞

週熱門

“數據荒”攔路AI訓練，海外科技巨頭招式頻出，無所不用其極！

谷歌因Imagen AI模型涉及版權侵權遭遇集體訴訟

OpenAI：記憶功能向ChatGPT Plus用戶全面開放

從瀕臨破產到2萬億市值的AI巨頭！黃仁勳最新採訪出爐，講述英偉達如何用GPU點燃全球AI革命

AI+遊戲發行平臺Ultiverse金芯片NFT銷售進行中

Taiko：在主網上部署Uniswap v3提案已通過

Nansen：近一月Tether、USDC和DAI合計交易量超過Visa 2023年月度平均水平

Nansen：過去30天USDT、USDC和DAI的交易量均超過Visa去年每月的平均交易額

dYdX：由於執行dYdX Chain v4.1.0軟件升級可能會出現延遲和停機

比特幣橋接XLink在Core Chain上推出，以提高比特幣在DeFi中採用

英國《金融時報》與OpenAI達成協議，雙方將合作開發新的AI產品

美股人工智能概念多數上漲，Reddit漲超7%，英偉達和谷歌則跌超2%

工業富聯一季度淨利超41億元，AI服務器收入同比增近兩倍

將“dYdXChain啓動激勵計劃活動再延長3個月”的提案已獲社區投票通過

將“dYdX Chain啓動激勵計劃活動再延長3個月”的提案已獲社區投票通過

ShibaInu（SHIB）矯正再次開始：下一步是什麼？

熱門新聞

週熱門