ASCII码 ASCII码

用企鹅做出的炸鸡什么样?这个AI「毕加索」给出的答案是......

发布于:2021-01-13 11:01:47  栏目:技术文档

  由“企鹅”构成的“炸鸡”长什么样?用“长颈鹿”组成的“鸡”是什么鬼...长颈鸡吗?

  你或许觉得这种并不存在的事物过于荒诞,而且靠自身的想象力有点难以描述,但最近,

  有 AI 能把这些东西画出来了。

  例如当你给出设定,用“大象”构成的“鸡”,一般人还在愁鸡头应该安排在哪,这款最新的 AI 已经画完了,而且一口气画了几十张:

  情不自禁的想来一个“看懂,掌声”。

  没错,OpenAI 又整活了,今天要介绍的这位 AI 界的新晋毕加索正是他们最近训练出的图像生成器,DALL·E。

  关于会画画的 AI,狂丸之前没少介绍过,但 DALL·E有点特别,在一定的框架下,它能按照人类的文字描述,给出画面图像,无论这段描述有多不着调。

  如果让你画一幅“一个小白菜宝宝穿着芭蕾舞裙遛狗”,你可能会一脸懵,但 DALL·E直接就整出来了:

  主角换成皮卡丘也没问题,而且每只狗子都不一样:

  所以,这看起来就是一个可以利用文本描述生成图像的 AI。人类的指令就是像是完成填空题,有一些可选选项,模式类似:绘制一个“xxx”的“xxx”,比如下图中,选取了“绿色”,得到了绿色的表。

  (绿色,六边形,钟表)

  于是,不同的关键词就组成了千奇百怪的东西,虽然看着有一丝丝沙雕,但其实这款 AI 在制图方面有着比较全面的功能。

  DALL·E都能“画”些什么? 

  比较基础的就是“控制属性”。我们刚才介绍过,例如“立方体”的“老虎”,通过两个简单的关键词构成的一组词汇,然后生成画面:

  “环面”的“水”,很有美感:

  还可以“绘制多个对象”,包括他们的空间关系,像是下图:

  一个“小”的“红色”的方块,“立”在一个大的“绿色”方块上。

  此时 AI 不仅要将词组正确组合,而且要形成正确的关联,避免混淆。下图是“一只绿色的大象坐在一只红色老鼠身上”,可以感受一下 AI 的抽象画法:

  另外还可以根据“画面的视角”生成图片。

  如“美洲狮”“坐在山上”的“鸟瞰图”,当然也可以选择平视或者特写等多个视角选项:

  根据“画面风格”变动生成图片,“狐狸”“坐在森林里”的“3D 渲染图”:

  类似的关键词,还可以换成前几年比较火的低多边形风格,也可以改成像素风格:

  还可以生成“横截面图”,这西瓜让 AI 切的稀碎:

  其他的功能还有很多,例如“推理背景细节”,给出一个大概的方向让 AI 补充画面。

  像是“早晨,一只水豚坐在森林里的画”,AI 会根据关键词,推断光线一类的需求,然后生成不同风格的“画”这个结果,看效果确实艺术极了:

  而我最喜欢的是“合并不相关的概念”。

  通常来说,我们组合一个词汇都是用于描述真实存在的事物,例如木质的桌子。不过好玩的是,DALL·E可以将不同概念的对象“强行”缝合,创造出新的东西,举个例子,设置由“蜗牛”组成的“汉堡”,于是就出现了汉堡蜗牛:

  感觉类似的生成方式,很适合做设计。下图的关键词是,一个“冰川”“形式”的“茶壶”:

  更进一步还可以制作“脑洞插画”,“皮卡丘”“穿着西装”“擤鼻涕”:

  “动物与动物之间的嵌合体”,用“长颈鹿”组成的“鸡”:

  还有神话中的不太好想象的“猫龙”,在 AI 眼里,竟然是长成这样的:

  DALL-E,是什么? 

  如果你对去年的 GTP-3 有印象,就能更简单的理解 DALL·E。对,GTP-3 就是那个给一些词或者句子,就能够自己写文章的那个 AI。

  这次的 DALL·E也是类似的功能,只不过变成给文字生成图片了。

  其本质跟 GPT-3 一样,还是变压器语言模型。在 GTP-3 那里,变压器是从“文字到文字”,这个 DALL·E则更进一步,变成了“文字到图片”。

  是不是很神奇?那么,这个 AI 又是如何做到的呢?根据 DALL·E创造者 OpenAI 的介绍,实现这个 DALL·E,有两个关键的核心。第一个,是接收数据流进行训练。DALL·E会接收图像和文字所组合的数据流,在模型训练之前,需要对数据进行预处理,一次接受后,会用到 1280 个标记,其中 256 个用于标记文本,1024 个用于标记图像。

  之后,便是对这些数据进行自回归建模,这时候,DALL·E使用了一种名为“自注意力层”以及其中的“注意遮罩”。

  怎么理解这个概念呢?大家可以回想一下,平时你在聚精会神地观察某个东西的时候,是不是会忽略周围的东西,这时候,你的注意力都集中在那个事物上?

  是的,在 AI 上,也有类似的概念:注意力机制。简单来说,就是用算法,让 AI 可以在不同外界需要下去选择性地观察,找出最有用的点。不同的算法得出的不同结果,就类似于咱们对同一事物的不同聚焦点,正如诗云“横看成岭侧成峰”。

  而在“自注意力”上,其实与注意力,只差了一个字,它是后者的一种变体。二者的区别,就是“自注意力”减少了对外部信息的依赖,在原本就具有的“注意力”分析上,更侧重于分析数据流内部各标记的相关性。

  在这个 DALL·E中,这样的不同注意力“遮罩”,一共有着 64 个。

  正是有了足够多关注和分析的角度,保证了训练中同一输入中的每个图像标记,都能或强或弱地与文字标记产生关联。

  其次,DALL·E还有另外一个核心:看看自己画得好不好。

  你让他画画,他其实会先画出 512 幅画,不过嘛,AI 在给你输出结果前,还会自己斟酌斟酌。

  这个使用的便是 CLIP 网络,这是一个评价系统,它会对自己的作品进行评分,然后根据高低顺序排列,排名靠前的,才会输出给你。

  DALL·E画出的沙雕作品 

  了解完来龙去脉,接下来就是整活时间了。

  尽管 DALL·E推给你的作品都是精挑细选的,但依然有很多鬼畜他妈给鬼畜开门——鬼畜到家的作品。

  例如“地球的横截面”,有的像是 Minecraft 里的方块,有的像是切了一块火腿。

  美洲狮在森林里的黏土动画,狮子看完想离开森林:

  我这一辈子已经坐过数千次马桶,但“粉色”、“六边形”马桶还是第一次看见:

  同时这样的马桶,它一秒就画了一堆。

  (共 30 个,以上为节选)

  我们都没有见过“环形”的“西瓜”,但 DALL·E给出的答案似乎也有点道理:

  而这个“四面体”的“斑马”彻底给我笑吐了。

  大自然看完,直呼内行。

  还有用长颈鹿构成的乌贼:

  下图分别是用熊猫构成的鳄鱼、羊驼、企鹅、鲸、乌贼,哪个最可爱?

  用企鹅构成的黄瓜:

  由企鹅构成的炸鸡...那这到底算是炸鸡还是炸企鹅?

  不过无论是哪一种,都挺萌,而且看起来似乎也挺好吃的。

  最后推荐一波 DALL·E绘制的最匪夷所思的画作,“企鹅与肉饼”。真正的——“笑死,企鹅肉”。

相关推荐
阅读 +