阿里达摩院：用机器视觉做广告设计--机器视觉网

去年十月份，马云成立阿里巴巴达摩院，三年拿出1000亿布局前沿技术的研究，并对它提出三个要求，“活得要比阿里巴巴长”、“服务全世界至少20亿人口”、“面向未来用科技解决未来的问题”。

    在过去的9个月中，阿里达摩院也陆续传出来自各方的技术大牛加盟；公布了正在研发中的AI芯片Ali-NPU；研发出量子电路模拟器“太章”，率先实现81量子比特（40层）的模拟；应用在上海地铁站的语音购票等消息，但整个达摩院（正如其名）还隐匿在云雾中。
    阿里达摩院第一次公开对外，则是近期在杭州举办的一场技术分享活动，现场来自达摩院不同部门的四位专家学者分享了他们的研究成果以及落地应用。在达摩院的技术布局中，既有应用于当下的语音识别、机器视觉、机器翻译等技术，也有量子计算等中长期布局未来的技术。而在应用场景中，达摩院的技术也广泛的落地在阿里的业务之上，去解决实际问题，比如机器翻译用于阿里的国际贸易，视觉生成用于淘宝广告的自动生成等。
    围绕人、物、空间推动机器视觉落地
    阿里达摩院机器智能技术实验室资深算法专家谢宣松分享了计算机视觉在产业中的应用，主要围绕人（医疗视觉）、物（行业视觉）、空间（城市大脑）、设计（视觉生成）几个维度来展开。谢宣松谈到，围绕人、物、空间来做一些机器视觉，目的是协助人提高效率。

    行业视觉是产业落地的一个大领域，场景众多，哪些场景能够让技术落地呢？谢宣松指出3种机器视觉可以落地的条件：
    第一种是诊断内容肉眼可分辨，正常&故障样本充足，对漏报有一定的容忍度。这种场景就很适合机器来做，比如对铁路螺母是否松动的监测。第二种是人肉眼难以发现，可根据情况用机器视觉作为代替。第三种是故障样本极少，但造成事故的结果又很严重，这时可以用机器视觉辅助人工检测。
    限定了边界后，就可以寻找技术落地的场景了，比如阿里基于视频分析，可以自动进行钢圈安全监测，实测精度在95%以上；再比如通过目标检测和行为分析，对猪的疫情等进行预警，前一段阿里云用AI养猪种瓜，也是风靡互联网圈。
    通过行业场景的落地，谢宣松总结到，我们需要深入行业，花大力气明确需求、定义问题；要重视数据，分析各个场景下数据的特点；要简化问题，优先采用简单有效的方案；并且要长期投入，不断迭代优化方案。
    视觉生成即通过AI技术，结合用户、场景需求，生成图像、视频等内容，比如广告图像的生成与设计，广告视频的生成，游戏图像生成等，从而提高人类工作的效率。
    阿里是以电商起家的，广告需求广泛存在于淘宝商户中，尤其是双十一这样的购物节设计需求大量存在。阿里特意构建了设计知识图谱，通过视觉生成来生成广告效果图。

    其中最典型的应用就是鲁班系统在淘宝中的应用。谢宣松谈到，双十一天猫、淘宝上大量的banner图片，其中很大一部分都是系统自动自动生成的。比如去年双十一用AI产图2.5亿张，累计产图10亿张。身为设计师的你看到这一结果是否会亚历山大呢？
    出了图片的生成，谢宣松表示，视频和图形的内容自动/半自动生成是一个趋势，也是另一个蓝海。比如在一个电视剧场景中，AI可以识别视频场景中的人物、对话、动作等，在识别场景后，就可以在适当的位置插入相关对象。
    现场他展示了一张“天猫国际”的植入广告，以及淘宝商品的视频生成，当然广告只是应用之一，只不过电商平台需求量太大。
   视觉生成的实现是各种技术的综合应用，会借用最基础的识别分类能力，也会用到序列，同样它会用到强化技术的能力，在像素生成和元素丰富上用一些概念能力，最后对整个系统有检测过程，使它满足用户需求。