解释最新科技进展,报道硅谷大事小情

点击上方“硅星人”关注我们~


新一代梗图之王,也可以是个 AI。
——
文|杜晨 编辑|VickyXiao 题图来源 | u/HeatSoup on Reddit

最近我完全迷上了一个推特账号。
上面发的全都是些描述十分离谱,却、又有一种独特风格的梗图。
比如“怀孕的妇女将投石车瞄准最高法院”:
“达斯·维达偷走一辆独轮车的监控画面”:
还有 “蜘蛛侠和古埃及”:
很难用文字来描述这些图片,有多么的离谱却又传神了。自从我每天开始转发这个账号,网友们都惊讶于我哪儿找来的这么多梗图……
这个账号,就是“奇怪的 Dall-E mini 生成图片” (Weird Dall·E Generations @weirddalle)。
在这个梗图横行网络,人们已经不能好好说话的年代,@weirddalle 成为了最新、最时髦,也最“古灵精怪”的梗图来源。今年2月才注册,现在粉丝数量已经快要突破百万了。
然而,很多人其实并不知道,这个账号的背后,并非一位脑洞清奇和高产的画手,而是一个在最近已经火出天际的神经网络项目:DALL·E mini.
| 一个免费公开的项目,让所有人都变成“灵魂画手”
近两年,超巨大参数量规模的语言模型,是进展最迅猛的一个创新方向。包括 OpenAI 的GPT-3、谷歌的LaMDA等,处理起各种各样的语言类任务,效果非常强大。
这些科技公司还在专门研究一个具体的语言任务:根据文字描述生成图片。在这个任务方向上,OpenAI 的 DALL·E、谷歌的 Imagen,以及 MidJourney 模型,都是非常知名的项目。
但是这些知名项目都是不公开或半公开的。比如 DALL·E 2,OpenAI 只给数量极其有限(大约几百人)的外部开发者和研究人员开放了使用权限。于是,家住美国休斯顿的开发者 Boris Dayma 决定,照着 DALL·E 2 的样子自己做一个小规模的免费版本出来,让大家玩个够。
这个项目,就是后来的 DALL·E mini。

Boris Dayma 图片来源:本人

这个项目本来是 Dayma 拿来参加 Hugging Face 挑战赛的,因为效果实在太棒,又是开源免费使用的,没过半年它就成功破圈,进入了流社会的视野
至于为什么一个出于爱好性质,由个人开发者做出来的图片生成模型,能够和 OpenAI 的 DALL·E 一代不相上下,在于这个小项目用了三个图片-描述平行数据库,分别为300万、1200万和1500万张图片,其中1500万的这个数据库正好是 OpenAI 的 YFCC100M 数据子集。
现在,大家正在疯狂地使用 DALL·E mini 进行创作输出。粉丝们甚至在 Reddit 上专门建立了一个subreddit社区,目前已经有超过8万名用户,在一个寻常的周四晚上,都有超过一千人同时在线:

在这个 subreddit 里,各式各样脑洞清奇的作品更是层出不穷:
有强迫模型生成 PPT 艺术字的:
有用它来伪造历史照片的:

图注:《星战》角色佳佳宾克斯在纽伦堡受审
虽然名字有点像,功能也基本一样,但 DALL·E mini 除了名字和训练数据库之外,跟 OpenAI 的 DALL·E 完全没有任何关系。也是因为它最近实在太火,搞得 OpenAI 有意见了,Dayma 只好把自己的项目名称改成了 Craiyon(https://www.craiyon.com/)
听说此事之后,粉丝们还做了一张梗图,嘲笑 OpenAI 那边还在控制测试权限,这边 DALL·E mini 早就给全网玩嗨了……
Dayma 在本周三透露,目前 DALL·E mini 后台正在面临巨大的算力和流量压力,每天要处理大约500万次生成指令。他表示了这么一个怪怪的但是能用的东西出来,反而大家都挺喜欢的的”,自己还是挺开心。
更重要的是,把过去只有少数“AI 特权人士”才拥有工具,交到每一个普通网民的手上,才是正确的事情。
Dayma 在接受英国媒体“i”采访时指出,那些能够使用类似图片生成模型的 AI 精英们,通常只会把让他们自己感到满意的生成结果发出来,这容易让其它看热闹的人误以为这些模型已经非常厉害了,然而实际情况可能并非如此。所以他才会捣鼓出 DALL·E mini 这个小玩意,让所有人都能用上,“这样大家才能真正明白这些模型到底水平如何。”
| 无所不能的语言模型,终于染指了艺术创作
2020年,OpenAI 的研究者揭开了 GPT-3 模型的盖头,当时的论文题为“Language Models are Few-Shot Learners”,直接点出了超大语言模型在多种非训练任务上具备强大的快速学习/掌握能力。
而在语言模型基础之上,面向图片生成这一专门任务方向而调试训练出的结果,像 DALL·E、DALL·E mini、Imagen、Midjourney 等的图片生成模型,更是展示出了令人惊讶的“艺术创作”能力。
2022年6月的一个星期一下午,传媒巨头赫斯特旗下时尚杂志《COSMO》位于纽约市的编辑开了一个视频电话会。会议的目的是为该杂志的6月刊设计一个封面,但和往常不同的是,位于西海岸的 OpenAI 员工也参与到了会议里。《COSMO》的编辑们震惊于 OpenAI 在 AI 艺术创作上取得的惊人进展,决定邀请这家公司一同在传媒行业做一件从未发生过的事情:
让 DALL·E 2 来设计一本顶级时尚杂志的整版封面。
封面,对于传媒人来说是顶礼膜拜的一种存在,时尚媒体更是如此。对于一本时尚杂志,封面浓缩了编辑部的社交关系能力和艺术审美水准,让人一眼即可领略本期内容的精华,和杂志本身的积淀。而当《COSMO》让 AI 来设计封面的决定在业界传开之后,难免有人诘问:是否传媒创意行业也江郎才尽,将要和其它很多蓝白粉领工作一样,最终难免让位给 AI?
如果仅从这次视频会议的工作效率来看,肯定的答案似乎是显而易见的:DALL·E 2 以平均每次输入20秒的用时,就可以根据编辑输入的字句,生成对应的图片,而且一次可以出六版,相比人工画师,效率简直高出天际了。
只是,这些图片都令人不甚满意。
最终,六位参会者不断地打磨和迭代输入的文本,又经过了一整夜之后,DALL·E 2 才终于生成了令所有人都满意的封面结果。

输入语句: "从下往上的广角拍摄,一个有着健美女性身材的女性宇航员,在火星上和无限的宇宙背景中中大摇大摆地走向相机,采用合成波风格 (synthwave)," 图片来源:COSMO 杂志

采用 DALL·E 2 “outpainting”功能,根据初始生成的图片,不断在边缘处进行“补完”,最终生成一张连贯的图片 图片来源:OpenAI/COSMO 杂志

在今天,DALL·E 2、DALL·E mini、MidJourney、Imagen 在生成视觉艺术上的确展现出极大的潜力。但如果你仔细想,它更大的意义,其实在于为那些“空有灵感”却没有视觉创作技艺的人,也即互联网上的每个你和我,赋予了一件强大的工具。
DALL·E 项目产品经理 Joanne Jang 表示,OpenAI 最终肯定还是希望能够将 DALL·E 2 商业化的,但希望在艺术生成的这个方向上,把它做成一个创作者的工具,而不是替代品。
没有任何工具应该替代创作者本人的艺术理解和表达对创作产物所造成的影响。但是,当文字生成图片技术进一步普及过后,难免出现大批入门级创作者沦为模型的“操作员”,过度依赖工具。
参与了《COSMO》封面项目的数字艺术家 Karen Cheng 认为,AI 的采用确实会对各行各业造成深远影响,让很多人失去工作,
“不过与此时,创意将会迎来一次爆发,新的工种也将被创造出来,那种可能性是今天的我们所无法想象的

未注明来源图片均来自于推特账号 @weirddalle 以及所引用的用户,权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。



喜欢这篇文章?



1)点击右下角的“在看”
2)分享到你的朋友圈和群里
3)赶快关注硅星人吧!
关注硅星人,你就能了解硅谷
最新的科技进展和湾区的大事小情,变身最in技术潮人


举报/反馈
相关文章