把文本变成画作，AI对艺术“下手”了( 二 ) _模态

AI打破自然语言处理和视觉处理的边界
此前， OpenAI斥巨资打造的自然语言处理模型GPT-3 ，拥有1750亿超大参数量，是自然语言处理领域最强AI模型。人们发现GPT-3不仅能够答题、写文章、做翻译，还能生成代码、做数学推理、数据分析、画图表、制作简历。自2020年5月首次推出以来， GPT-3凭借惊人的文本生成能力受到广泛关注。
与GPT-3一样， DALL·E也是一个具有120亿参数的基于Transformer架构的语言模型，不同的是， GPT-3生成的是文本， DALL·E生成的是图像。
在互联网上， OpenAI大秀了一把DALL·E的“超强想象力” ，随意输入一句话， DALL·E就能生成相应图片，这个图片内容可能是现实世界已经存在的，也可能是根据自己的理解创造出来的。
此前，关于视觉领域的深度学习方法一直存在三大挑战——训练所需大量数据集的采集和标注，会导致成本攀升；训练好的视觉模型一般只擅长一类任务，迁移到其他任务需要花费巨大成本；即使在基准测试中表现良好，在实际应用中可能也不如人意。
对此， OpenAI联合创始人曾发文声称，语言模型或是一种解决方案，可以尝试通过文本来修改和生成图像。基于这一愿景， CLIP应运而生。只需要提供图像类别的文本描述， CLIP就能将图像进行分类。
至此， AI已经打破了自然语言处理和视觉处理的边界。 “这主要得益于计算机视觉领域中语义类别分析方面的飞速发展，使得AI已经能够进一步进行更高层次的视觉语义理解。 ”黄岩说。
具体来说，随着深度学习的兴起，计算机视觉领域从2012年至今已经接连攻克一般自然场景下的目标识别、检测、分割等语义类别分析任务。 2015年至今，越来越多的视觉研究者们开始提出和研究更加高层的语义理解任务，包括基于图像生成语言描述、用语言搜索图片、面向图像的语言问答等。
“这些语义理解任务通常都需要联合视觉模型和语言模型才能够解决，因此出现了第一批横跨视觉领域和语言领域的研究者。 ”黄岩说，在他们推动下，两个领域开始相互借鉴优秀模型和解决问题的思路，并进一步影响到更多传统视觉和语言处理任务。
【把文本变成画作，AI对艺术“下手”了】多模态交互方式会带来全新的应用
随着人工智能技术发展，科学家也正在不断突破不同研究领域之间的界限，自然语言处理和视觉处理的交叉融合并不是个例。
“语音识别事实上已经加入其中，最近业内出现很多研究视觉+语音的新任务，例如基于一段语音生成人脸图像或者跳舞视频。 ”黄岩说，但是要注意到，语音其实与语言本身在内容上可能具有较大的重合性。在现在语音识别技术非常成熟的前提下，完全可以先对语音进行识别将其转换为语言，进而把任务转换为语言与图像交互的常规问题。
无论是DALL·E还是CLIP ，都采用不同的方法在多模态学习领域跨出了令人惊喜的一步。今后，文本和图像的界限是否会被进一步打破，能否顺畅地用文字“控制”图像的分类和生成，将会给现实生活带来怎样的改变，都值得期待。
对于多模态交互方式可能会带来哪些全新应用？黄岩举了两个具有代表性的例子。
第一个是手机的多模态语音助手。该技术可以丰富目前手机语音智能助手的功能和应用范围。目前的手机助手只能进行语音单模态交互，未来可以结合手机相册等视觉数据、以及网络空间中的语言数据来进行更加多样化的推荐、查询、问答等操作。

把文本变成画作，AI对艺术“下手”了( 二 )

推荐阅读

熟地黄是热性吗

闲鱼扣分影响淘宝店吗

成都黄龙溪古镇旅游攻略

房间有衣蛾还能睡吗

2022年广州花都区积分入学申请指南

吾欲汝曹闻人之过译文

怎么存放晒红茶

茶花为什么不开花养的茶花为什么不开花

窗户遮阳膜怎么贴窗户遮阳膜到底怎么贴

织田金荣是坏的吗

电子合同平台哪个,和员工签电子合同

哪个85镜头好,想买一个定焦镜头

为什么中国人口减少,为什么中国的人口越来越少

肇庆至梧州市藤县高铁，肇庆有车到广西梧州藤县的吗要多少钱需要多少时间

司马懿的生日是几月几号

云南省内二手四桥车，云南二手四桥车