OpenAI“不能说的秘密”被公开了？使用YouTube数据训练模型，获取方式并不光彩

①一个普遍的猜测是，OpenAI使用爬虫，“偷走”了YouTube的数据；
②OpenAI高管闪烁其词，从侧面加深了人们对其“数据小偷”的印象；
③人工智能的竞技场仍然是一片广袤的原野，与数据有关的游戏规则要么尚未确定，要么被忽视。

《科创板日报》3月19日讯 GPT大模型不断进阶的同时，OpenAI面临的非议似乎只多不少，除了马斯克一再追问的“开源”问题，OpenAI训练大模型的数据来源不明，或已为这家公司埋下了侵权诉讼的地雷。

当前AI大模型的训练，数据端需要巨大数据量的大规模数据集投喂。公开资料显示，OpenAI的数据来源可能包括但不限于：公开可用的数据集，如互联网上的各种资源，如书籍、网页、新闻文章、学术论文等；合作伙伴和第三方数据提供商提供的数据集；购买的特定领域的数据，如医疗、法律或科学文献；合成数据，OpenAI可能会使用其模型自生成数据，例如通过模型自身的输出来训练和改进模型；众包和社区贡献的数据。

数据来源并不是最重要的问题，外界关注的焦点是OpenAI如何拿到这些数据。

“偷”来的？

正如Business Insider报道，OpenAI使用大量YouTube视频训练模型已经是“公开的秘密”，受益产品包括其新推出的文生视频领域模型Sora。谜团在于OpenAI如何取得足够的YouTube内容。

要知道，YouTube是谷歌的子公司。2006年，YouTube被谷歌以16.5亿美元的价格收购，并在谷歌的支持下迅速成长为全球最大的视频分享平台。

而谷歌一直致力于发展AI，是OpenAI的主要竞争对手之一，自然不会将自家金矿无偿提供给对家使用，YouTube早已禁止出于商业目的的下载，还将限制大量下载YouTube视频数据的行为。这种严格把控下，个人用户也受到了影响，有人表示，即使下载一个YouTube视频，速度也非常缓慢，需要几个小时才能完成。

一个普遍的猜测是，OpenAI使用爬虫，“偷走”了YouTube的数据。OpenAI曾经承认，推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练。

OpenAI高管对相关问题闪烁其词，也从侧面加深了人们对其“数据小偷”的印象。《华尔街日报》最近询问OpenAI首席技术官Mira Murati，该初创公司是否使用包括来自YouTube、Instagram和Facebook的视频来训练Sora。

“我实际上对此并不确定，”她说。当再次被问及训练数据的来源时，Murati拒绝回答，“我不会透露细节。”

Business Insider最新报道指出，一位熟悉OpenAI运营的人士表示，该公司指派了一个严密保护的团队来获取训练数据，关于如何获得这些数据，是一个保密问题。

栅栏丛生的AI原野

使用爬虫的行为并不为谷歌所容，该公司旗下的YouTube禁止通过机器人和其他自动化方法抓取其视频。

但对于OpenAI来说，以违反谷歌服务条款的方式访问YouTube视频可能并不违法。美国的判例法和“合理使用”原则赋予了公司以不同方式自由使用在线内容的权利。

简而言之，谷歌、OpenAI和其他科技公司目前认为，使用受版权保护的内容进行人工智能模型训练也是合法的。监管机构也尚未就此做出明确规定。人工智能的竞技场仍然是一片广袤的原野，与数据有关的游戏规则要么尚未确定，要么被忽视。

各厂商争先入场，搭建自己的技术栅栏。

OpenAI和其他大模型开发商此前曾在发表的研究论文中公开其训练数据源，但随着竞争加剧，这种做法不再盛行。人人都想要保留自己的技术秘诀，以求相对优势，尤其是占据有利地位的头部厂商，开源之争也是厂商试图自留杀手锏的体现。

唯一确定的是，随着生成式AI技术的进一步迭代，类似的纠纷只会多不会少。

大公司更容易成为众矢之的，以数据为例，即使它们敢于承担责任，承担高昂的数据采购成本，但要做到数据获取完全合规，并不容易。由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，又增加了数据被窃取、篡改、滥用或泄露的风险。

如何平衡个人隐私保护和鼓励技术创新，如何找到企业生存与合规生产间的最优路径，已经是每个致力于生成式AI事业的公司绕不开的问题。

本文来自“财联社”，编辑：宋子乔，36氪经授权发布。

OpenAI“不能说的秘密”被公开了？使用YouTube数据训练模型，获取方式并不光彩

“偷”来的？

栅栏丛生的AI原野

热门新闻

周热门

OpenAI“不能说的秘密”被公开了？使用YouTube数据训练模型，获取方式并不光彩

“偷”来的？

栅栏丛生的AI原野

何小鹏：小米的营销不好学，企业要找到自己的基因｜北京车展

挤地铁的首富

氪星晚报｜喜茶联合中国茶叶流通协会、飞猪发布6条新茶饮文旅线路攻略；支付宝全新AI产品开启灰测，支持挂号订票点外卖等30多项办事服务；B站发布国内首个免费数字分身定制工具“必剪Studio”

硅谷研究院院长：现在的人工智能有四大缺陷，但是也有五大潜力应用方向

微软Q3业绩会实录：有信心将投资转化为未来的第二次成功

谷歌Q1业绩会实录：AI会为云业务带来拐点

高榕马晓宇：AI+硬件，世界变局下的中国机会

大模型新纪元：定制化推理释放企业数据价值

非公医疗进入整合期，精细化发展成解题思路｜最前线

雷军终于成了车圈顶流

“每天只睡5小时”，大模型在火热落地中

中国快递业不需要“小院高墙”

Meta Q1业绩会实录：虽然AI产品还没盈利，会持续投资和扩展规模

数字供应链中的10个顶级成功案例

氪星晚报｜阿里发布职业趋势报告：AI能力正在成为职场关键竞争力；零跑C16北京车展预售发布；雷军：汽车工厂至少能带动5—6倍的周边产业

热门新闻

周热门