新一代梗图之王，居然是它

解释最新科技进展，报道硅谷大事小情

点击上方“硅星人”关注我们~

新一代梗图之王，也可以是个 AI。

——

文｜杜晨编辑｜VickyXiao 题图来源 | u/HeatSoup on Reddit

最近我完全迷上了一个推特账号。

上面发的全都是些描述十分离谱，却、又有一种独特风格的梗图。

比如“怀孕的妇女将投石车瞄准最高法院”：

“达斯·维达偷走一辆独轮车的监控画面”：

还有 “蜘蛛侠和古埃及”：

很难用文字来描述这些图片，有多么的离谱却又传神了。自从我每天开始转发这个账号，网友们都惊讶于我哪儿找来的这么多梗图……

这个账号，就是“奇怪的 Dall-E mini 生成图片” (Weird Dall·E Generations @weirddalle)。

在这个梗图横行网络，人们已经不能好好说话的年代，@weirddalle 成为了最新、最时髦，也最“古灵精怪”的梗图来源。它今年2月才注册，现在粉丝数量已经快要突破百万了。

然而，很多人其实并不知道，这个账号的背后，并非一位脑洞清奇和高产的画手，而是一个在最近已经火出天际的神经网络项目：DALL·E mini.

| 一个免费公开的项目，让所有人都变成“灵魂画手”

近两年，超巨大参数量规模的语言模型，是进展最迅猛的一个创新方向。包括 OpenAI 的GPT-3、谷歌的LaMDA等，处理起各种各样的语言类任务，效果非常强大。

这些科技公司还在专门研究一个具体的语言任务：根据文字描述生成图片。在这个任务方向上，OpenAI 的 DALL·E、谷歌的 Imagen，以及 MidJourney 模型，都是非常知名的项目。

但是这些知名项目都是不公开或半公开的。比如 DALL·E 2，OpenAI 只给数量极其有限（大约几百人）的外部开发者和研究人员开放了使用权限。于是，家住美国休斯顿的开发者 Boris Dayma 决定，照着 DALL·E 2 的样子自己做一个小规模的免费版本出来，让大家玩个够。

这个项目，就是后来的 DALL·E mini。

Boris Dayma 图片来源：本人

这个项目本来是 Dayma 拿来参加 Hugging Face 挑战赛的，因为效果实在太棒，又是开源免费使用的，没过半年它就成功破圈，进入了主流社会的视野。

至于为什么一个出于爱好性质，由个人开发者做出来的图片生成模型，能够和 OpenAI 的 DALL·E 一代不相上下，在于这个小项目用了三个图片-描述平行数据库，分别为300万、1200万和1500万张图片，其中1500万的这个数据库正好是 OpenAI 的 YFCC100M 数据子集。

现在，大家正在疯狂地使用 DALL·E mini 进行创作输出。粉丝们甚至在 Reddit 上专门建立了一个subreddit社区，目前已经有超过8万名用户，在一个寻常的周四晚上，都有超过一千人同时在线：

在这个 subreddit 里，各式各样脑洞清奇的作品更是层出不穷：

有强迫模型生成 PPT 艺术字的：

有用它来伪造历史照片的：

图注：《星战》角色佳佳宾克斯在纽伦堡受审

虽然名字有点像，功能也基本一样，但 DALL·E mini 除了名字和训练数据库之外，跟 OpenAI 的 DALL·E 完全没有任何关系。也是因为它最近实在太火，搞得 OpenAI 有意见了，Dayma 只好把自己的项目名称改成了 Craiyon（https://www.craiyon.com/）

听说此事之后，粉丝们还做了一张梗图，嘲笑 OpenAI 那边还在控制测试权限，这边 DALL·E mini 早就给全网玩嗨了……

Dayma 在本周三透露，目前 DALL·E mini 后台正在面临巨大的算力和流量压力，每天要处理大约500万次生成指令。他表示“做了这么一个怪怪的但是能用的东西出来，反而大家都挺喜欢的的”，自己还是挺开心。

更重要的是，把过去只有少数“AI 特权人士”才拥有工具，交到每一个普通网民的手上，才是正确的事情。

Dayma 在接受英国媒体“i”采访时指出，那些能够使用类似图片生成模型的 AI 精英们，通常只会把让他们自己感到满意的生成结果发出来，这容易让其它看热闹的人误以为这些模型已经非常厉害了，然而实际情况可能并非如此。所以他才会捣鼓出 DALL·E mini 这个小玩意，让所有人都能用上，“这样大家才能真正明白这些模型到底水平如何。”

| 无所不能的语言模型，终于染指了艺术创作

2020年，OpenAI 的研究者揭开了 GPT-3 模型的盖头，当时的论文题为“Language Models are Few-Shot Learners”，直接点出了超大语言模型在多种非训练任务上具备强大的快速学习/掌握能力。

而在语言模型基础之上，面向图片生成这一专门任务方向而调试训练出的结果，像 DALL·E、DALL·E mini、Imagen、Midjourney 等的图片生成模型，更是展示出了令人惊讶的“艺术创作”能力。

2022年6月的一个星期一下午，传媒巨头赫斯特旗下时尚杂志《COSMO》位于纽约市的编辑开了一个视频电话会。会议的目的是为该杂志的6月刊设计一个封面，但和往常不同的是，位于西海岸的 OpenAI 员工也参与到了会议里。《COSMO》的编辑们震惊于 OpenAI 在 AI 艺术创作上取得的惊人进展，决定邀请这家公司一同在传媒行业做一件从未发生过的事情：

让 DALL·E 2 来设计一本顶级时尚杂志的整版封面。

封面，对于传媒人来说是顶礼膜拜的一种存在，时尚媒体更是如此。对于一本时尚杂志，封面浓缩了编辑部的社交关系能力和艺术审美水准，让人一眼即可领略本期内容的精华，和杂志本身的积淀。而当《COSMO》让 AI 来设计封面的决定在业界传开之后，难免有人诘问：是否传媒创意行业也江郎才尽，将要和其它很多蓝白粉领工作一样，最终难免让位给 AI？

如果仅从这次视频会议的工作效率来看，肯定的答案似乎是显而易见的：DALL·E 2 以平均每次输入20秒的用时，就可以根据编辑输入的字句，生成对应的图片，而且一次可以出六版，相比人工画师，效率简直高出天际了。

只是，这些图片都令人不甚满意。