來源:硬AI

在AI迅猛發展的大潮下,新聞報道、虛構作品、留言板帖子、維基百科文章、計算機程序、照片、播客和電影剪輯等網絡數據,越來越成爲人工智能行業的命脈。因爲創建創新系統取決於擁有足夠的數據,教會AI即時產生類似人類創作的文本、圖像、聲音和視頻。

有研究顯示,科技公司可能在2026年前就用完互聯網上的高質量數據,因爲這些公司使用數據的速度比產生數據的速度快,情況已經非常緊急。

爲了應對這一問題,包括OpenAI、GoogleMeta等海外科技巨頭在蒐集數據方面,已經“無所不用其極”,有的甚至開始忽略公司政策以及規避隱私法律。

OpenAI:轉碼Youtube、“合成”數據

據報道,目前AI領域的領頭羊OpenAI在2021年末,已經耗盡了互聯網上所有可靠的英文文本資源,需要更多數據來訓練下一個版本的技術。當時,OpenAI的研究人員創建了一個名爲Whisper的語音識別工具。它可以轉錄YouTube視頻中的音頻,生成新的對話文本,使人工智能系統更加智能。

儘管這樣做可能違反YouTube規則,因爲YouTube禁止用戶將其視頻用於“獨立”應用,還禁止通過“任何自動化手段(如機器人、殭屍網絡或網絡抓取工具)”訪問其視頻,但OpenAI的團隊轉錄了超過一百萬小時的YouTube視頻。然後,這些文本被輸入到GPT-4的系統中,成爲最新版本ChatGPT聊天機器人的基礎。

媒體報道,OpenAI的員工知道他們正在涉足法律灰色地帶,但他們認爲用視頻訓練人工智能是合理使用。知情人士說,OpenAI的總裁格雷格·布羅克曼(Greg Brockman)就親自幫助收集YouTube視頻數據,以此爲基礎領導了開發GPT-4的團隊。

數據緊缺的問題,也讓OpenAI正在開發“合成”數據,即人工智能模型產生的文本、圖像和代碼,而非人類創造的數據。換句話說,這些系統從它們自己生成的內容中學習。

OpenAI創始人Sam Altman此前說,“合成”數據可以創造額外的數據來開發更好的AI版本,並減少他們對受版權保護數據的依賴。

但有分析認爲,建立一個可以自我訓練的AI系統說起來容易做起來難。從自己的輸出中學習的AI模型可能會陷入一個循環,其中它們加強自己的怪癖、錯誤和限制。

爲了應對這一問題,OpenAI和其他機構正在研究如何讓兩個不同的AI模型一起工作,生成更有用、更可靠的合成數據。一個系統產生數據,而另一個系統判斷信息,以區分好壞。研究人員對這種方法是否有效意見不一。

谷歌:修改隱私政策 擴大數據來源

儘管一些谷歌員工知道OpenAI已經收集了YouTube視頻的數據,但他們沒有阻止OpenAI,因爲谷歌也使用YouTube視頻的轉錄文本來訓練其人工智能模型。這種做法可能侵犯了YouTube創作者的版權。因此,如果谷歌對OpenAI大做文章,可能會引起公衆對其自身方法的抗議,人們說。

去年,Google還擴大了其服務隱私條款,允許Google能夠使用公開可用的Google Docs、Google Maps上的餐廳評論和其他網上材料,爲更多的人工智能產品提供支持。

此前,谷歌的隱私政策規定,公司只能使用公開信息來“幫助訓練谷歌的語言模型並構建功能,如谷歌翻譯”,但新條款使谷歌可以利用這些數據爲其“人工智能模型及構建產品和功能,如谷歌翻譯、Bard和Cloud AI功能”。

Meta:版權問題上或鋌而走險

在AI領域一直處於追趕狀態的Meta,去年初遇到了與其競爭對手相同的障礙:數據不足。

有媒體報道,Meta的生成式人工智能副總裁Ahmad Al-Dahle告訴高管,他的團隊幾乎使用了互聯網上所有可用的英語書籍、論文、詩歌和新聞文章來開發模型,除非獲取更多數據,否則Meta無法與ChatGPT匹敵。

但要想獲得更多數據,版權保護的問題是躲不掉的。該公司去年討論了購買出版社Simon & Schuster以獲取長篇作品,他們還討論了從互聯網上收集版權數據的可能性,即使這可能意味着面臨訴訟,因爲與出版商、藝術家、音樂家和新聞行業協商許可證需要的時間太長。

有媒體透露,有Meta高管認爲,OpenAI似乎在未經允許的情況下使用了受版權保護的材料,Meta也可能會跟隨這一“市場先例”。

根據內部會議錄音,Meta的高管們同意依據2015年關於作家協會對谷歌的法庭裁決來操作。在那起案件中,谷歌被允許掃描、數字化並在在線數據庫中編目書籍,因爲谷歌爭辯說它僅在線上重現了作品的片段,並轉化了原作,這構成了合理使用。

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

相關文章