OpenAI发布可用文本叙述产生合理图像的神经网络DALLE--机器视觉网

非营利人工智能研究组织OpenAI训练了一个称为DALLE的神经网络，可让用户以自然语言文本注解，创建内容相符的图像。而DALLE的名称由来，来自西班牙加泰隆尼亚超现实主义画家萨尔瓦多达利（Salvador Dalí），以及皮克斯动画人物瓦力（WALLE）的混合词。

DALLE是一个具有120亿个参数的GPT-3语言模型，经过文本图像配对资料集训练，可以从文本叙述生成图像。DALLE具有丰富的功能，除了创建拟人化动物与物体，还能以合理的方式组合不相关的概念，而渲染文本以及转换图像等工作，也都难不倒DALLE。

研究人员提到，GPT-3的出现，代表语言已经可以用来指示大型神经网络，执行各种文本生成工作，而图像GPT代表着类似于GPT-3的神经网络，也可以用来产生高分辨率的图像，而OpenAI扩展了两者的概念，DALLE的贡献在于证明人们已经可以通过语言，来操纵神经网络所产生的视觉概念。

就如同GPT-3一样，DALLE是一个变换语言模型（Transformer Language Model），其以包含多达1,280个权限（Token）的单一流媒体，接收文本以及图像，并使用最大可能性，一个接一个地生成所有权限。由于这个训练过程，让DALLE不仅能够以文本提示一致的方式，从头开始产生图像，还能够顺着既有图像，重新生成符合文本叙述的图像。

DALLE能够探索语言结构的组成，从大量不同的句子中产生合理的图像。研究人员发现，DALLE具有控制物体属性的能力，像是可渲染多边形物体，即便有些物体在现实世界不太可能出现，但DALL在搭建时，仍会考虑其合理性，例如DALLE在搭建像框或是画框，会倾向避开七边形，而人孔盖或是停车标志，DALLE较不会使用五边形等特殊形状。

除了单一物体之外，DALLE也有能力以不同的视角，搭建完整的场景图片，像是输入文本an extreme close-up view of a capybara sitting in a field，则DALLE就能产生大量近距离，水豚坐在空地上的图片，官方提到，DALLE能以各种视角搭建动物，要从鸟瞰图和后视图视角搭建动物，DALLE需要从不同角度了解动物的外观，而诸如像是特写镜头，则关乎DALLE对动物毛皮细节的了解程度。为了测试DALLE搭建不同视角物体的能力，研究人员让DALLE以等角度间隔，搭建同一个头部图像，而这些图像串联起来，可以形成一个平顺的头部旋转动画。

而当收到的指令不够明确，DALLE还会自动推断出背景细节，像是a painting of a capybara sitting on a field at sunrise这样的文本描述，依照搭建水豚的朝向，可能需要画出阴影，虽然文本叙述没有明确提及，但是DALLE仍可以正确地画出合理的阴影。

DALLE还有一个强大的能力，可以结合不同的概念搭建成合理物体图像，像是要DALLE搭建出酪梨形状的扶手椅，DALLE便能产生同时考量两者形状的椅子，酪梨形状外形通常会与椅背相关联，而酪梨的果核凹槽，则会与椅垫相关联。

由于DALLE的能力过于强大，可能会对人类社会产生广泛的影响，因此OpenAI将计划分析像是DALLE这样的模型，对社会所产生的影响，包括特定工作流程以及专业的经济冲击，还有这个技术所存在的潜在偏差，以及长期在道德上挑战。