作者 | 刘雨洁、王与桐
如果说人们对于效率性人工智能的定义是自动驾驶、数据分析、无人工厂等等,那么创造性人工智能的边界在哪里?
在文字创作领域,彩云小梦、Jasper、清华九歌等AI写作服务早已给出过令人震撼的答案。为无数网文作者开拓了思路,也在将文字创作的门槛压得更低的同时,收到了种种非议。而在美术创作领域,一直到今年上半年Disco Diffusion红极一时,才引发热议。
短短几个月内,AI Art成为了全球VC都在追捧的赛道:符合目前最火的PLG模式、拥有底层壁垒的AI技术、是科技和人文完美的交叉点、大批体验者蜂拥而至。
来源网络
上图为国内最大的平面设计师社区UISDC上首次出现关于Disco Diffusion的科普文章,设计师是对图像创作工具最敏感的群体之一,彼时大多数C端用户还并不知道这一“黑科技”的存在,即使知道,也会因为它复杂的调试环境失去参与测试的欲望。
不过五个月,Disco Diffusion的流行引发了一场从Google Colab Notebook发酵而来的共享式实验革命。据知情人透露,解决了Disco Diffusion技术痛点的追随者、上线于2022年8月22日的Stable Diffusion,目前正在以5-10亿美元的估值接触融资。上线一个月,就有望跻身全球独角兽阵营,足以见得一级市场对于AI Art未来的看好。
网友十月十七用Disco Diffusion生成了24节气。
AI Art即AI生成艺术,是AIGC里面的一个分支。AIGC(Artificial Intelligence Generated Content)是“继专业生成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content,UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。在国际上对应的术语是“人工智能合成媒体(AI-generated Media或 Synthetic Media)”,其定义是“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”。
事实上,AI生成图像与画作,从技术和商业化角度,也已经分别拥有相当长的历史,并非新兴领域,而是一个不断革新迭代的技术领域。
早在2015年,Google就发布并开源了DeepDream,通过算法生成迷幻和超现实的图像。近十年的时间里,大到数字化合成,小到曾经风靡互联网的“一键生成新海诚风格照片”、“生成童年照片”等图片效果等,都在体现着AI能力和算力基础的不断优化成熟。
Google DeepDream生成效果,生成痕迹非常明显
AI Art今年以来的热度,是因为一种呈现为文字转图像(Text-to-image)特性的崭新交互方式,正在向大众宣告AI Art正在进入一个“民主化”的时代。使用文字描述,或者基于画面意象和故事,或者基于艺术家风格、构图、色彩、透视方法等专业名词,就能在数十秒内生成完整的绘画作品,这让艺术创作成为了一件像跑步一样的事:人人都会跑步,只不过是专业的人跑得更快。
还原到底层技术方面,则是一场Diffusion对GAN的彻底革新。
传统AI Art的的技术原理是生成对抗网络(GAN)或VAE等,目前,GAN作为上一代AI Art工具与平台最主流的图像生成模型,在模型训练方面已经有了很大的突破,但在实际应用的过程中仍然拥有严重的结构性问题。
随着热度升温,可能会取而代之的是Diffusion。Denoising Diffusion Models(去躁扩散模型)作为一种基于分数的生成模型,是一种非常强大的新型生成模型。其工作原理就是通过反复地向训练数据添加高斯噪声来破坏训练数据,然后通过反转添加噪声的过程来学习如何取回数据。Diffusion还提供大量样本多样性和学习数据分布的准确模式覆盖,这意味着Diffusion适用于具有大量不同和复杂数据的学习模型,从而解决了GAN的问题。Diffusion缓慢改变输入数据将数据映射到噪声的正向变换,通过学习的、参数化的反向过程来完成数据生成。该过程从随机噪声开始,一次一步地进行清理。
来源网络
Diffusion对图像生成效果的提升十分显著,数字生成的痕迹也得到了有效削弱,用户自己可选执行步数,步数越多图像越精细的特点也激起了更多的“硬核”需求。
来源网络
这也就是为什么AI Art工具其实从很早之前就有了,但此前的图像效果经常会有“太假”或者不够完整等种种问题,甚至不如直接用Photoshop做一些风格化处理,因此这些作品也就失去了如今Diffusion时代作为艺术品的收藏与分享价值。
通过指数级爆发的帖子和作品展示,以Disco Diffusion、Stable Diffusion、DALL-E2、MidJourney这些算法和工具为代表的生成器,已经成为了AI生成向C端落地、以及更广阔的元宇宙世界的先发力量。
上图记录了足以让人们真正关注到AI Art领域的一起标志性事件:一副AI生成艺术作品在科罗拉多州博览会艺术比赛中获得了第一名。
目前,AI Art工具主要也还在欧美等国家发展较快,国内起步稍晚,参与者主要是在AI 领域或者图片编辑领域有较多积累的大厂,比如百度、美图等。
本文,36氪梳理了全球范围内正在流行的AI Art工具,分析其差异和共性,给国内有类似想法或者能力的创业公司、想要在AIGC方面做出投资的投资从业者以借鉴。
由于目前市场上的AI Art工具和服务中仍然有相当一部分使用的底层算法是DeepDream或者GAN,而近期热度主要来自Diffusion,因此我们把它们分成了两类。
一、Diffusion
Stable Diffusion()
Stable Diffusion是时下最先锋、也是最流行的AI绘画机器学习模型,上线于2022年8月22日,由StabilityAI开发,Web演示版本搭载于AI开源社区Huggingface。StabilityAI是一家创立于2019年的人工智能初创公司,总部位于伦敦,致力于构建以AI为技术载体的解决方案。目前,Stable Diffusion正在测试其商业版本DreamStudio,后者具有更快的生成速度,同时即将上线API功能。据知情人士透露,StabilityAI正在被Coatue、Lightspeed等知名VC考虑以5-10亿美元的估值进行投资。
- 开源,免费使用
- 支持文本生成图像、图像生成图像两种模式
- Web演示版本生成速度非常快,预计生成图像只需要1到15分钟(生成时长与排队有关)
来源:Stable Diffusion
Disco Diffusion()
Disco Diffusion具有一个强大的开源 CLIP-Guided Diffusion 模型,基于谷歌技术架构,可以创建详细、逼真的图像。上线于2021年10月29日,由Accomplice开发,Accomplice是一家创立于2016年的公司,致力于帮助每个团队和个人找到适合他们的 AI 驱动的图像工作流程。
- 开源,免费
- 需要通过Google Colab生成,没有更友好的用户界面,有使用门槛
- 用户可以自己定制步数等高级选项
来源:Disco Diffusion
DALL-E2()
DALLE2可以从自然语言的描述中创建逼真的图像和艺术,上线于2022年4月6日,由OpenAI开发。OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨在2015年创立。此前,在DALLE2尚未正式发布时,每周仅向1000名用户发布,9 月 29 日,OpenAI 已经取消了访问其文本生成图像系统 DALL-E 2 的等待名单,任何人都可以立即注册使用。OpenAI 称,大约 150 万 DALL-E 用户每天生成超过 200 万张图像。
- 文本到图像生成仅仅需要几分钟,生成的图像的多次迭代
- 编辑和修饰功能,可以自定义多层图像
- 渲染人脸方面,为了防止图片造假,DALL-E2会故意生成歪七扭八的眼部,或是扭曲的嘴唇
- 任何注册访问 DALL-E 的人都将免费获得 50 个点数,此后每月可再获得 15 个点数,每个点数可用于生成一张图片,点数可以购买,115 个售价 15 美元
来源:DALLE2
Mid Journey()
Mid Journey是一个流行但尚未普遍可用的AI艺术生成器。Midjourney 是一个独立的研究实验室,探索新的思想媒介并扩大人类的想象力。Midjourney 是一个小型自筹资金团队,专注于设计、人类基础设施和人工智能。Midjourney 是托管在 Discord 服务器上的 AI 文本到图像扩散模型。目前已经有150万用户。
- 演示版易于使用,仅需要提供一个小文本输入
- 基于Discord,有良好的社区生态
- 文档详尽,对开发者友好
Mid Journey
TIAMAT()
TIAMAT是由国内团队研发的一款人工智能绘画工具,于2022年7月22日上线,公司总部位于上海。目前还处于内测版本。
- 支持中文输入
- 主要面向中国用户群体,更理解东亚艺术风格
- 基于飞书社区,申请制内测
TIAMAT
Photosonic AI()
Photosonic由AIGC公司Writesonic开发,位于美国旧金山,此前专注于AI文本创作。目前,Photosonic已经生成了超过一百万张图像。Photosonic在Stable Diffusion上线后一周上线,据Stable Diffusion创始人形容,Photosonic AI是抄袭了Stable Diffusion的开源版本。
Photosonic AI
二、非Diffusion
DeepDream()
DeepDream作为市场上最受欢迎的AI艺术生成器之一,上线于2015年6月,是由谷歌工程师 Alexander Mordvintsev 创建的计算机视觉程序,可以探索不同的 AI 算法。目前,市场上大量艺术效果生成应用都基于这一开源技术
NightCafe()
NightCafe上线于2019年11月,由Reddit开发。Reddit是一個娱乐、社交及新闻网站,创立于2005年2月3日,总部位于旧金山,致力于为世界上每个人带来社区和归属感。通过NightCafe,用户可以获得所生成艺术作品的所有权,也可以购买作品的打印版本。
Artbreeder()
Artbreeder上线于2019年5月,由Joel和 Studio Morphogen创建。Artbreeder旨在成为一种新型的创意工具,通过让协作和探索变得更容易来赋予用户创造力。Artbreeder 使用BigGAN和 StyleGAN 模型。其中一个使用BigGAN的最小开源版本。
Big Sleep()
Big Sleep是一个基于Python的AI艺术生成器。由谷歌开发,其使用 BigGAN 和 OpenAI 的 CLIP 通过 Google Colab 笔记本从 Twitter 用户 Adverb 生成文本到图像。需要通过Python编程语言生成,处理图像需要一段时间和大量内存,有可能无法在计算机上运行脚本。
StarryAI()
StarryAI是一个AI艺术生成器App,目前在Google play上已经有超过50万的下载量。作为移动应用,有iOS和Android版本,可以在移动端使用,支持创建NFT,同时支持生成步数等进阶选项。
WOMBO Dream()
Wombo是一家总部位于多伦多的合成媒体公司,曾于2021年3月推出了一款由AI驱动的对口型App,允许用户上传任何静止的肖像并对其进行动画处理,以唱出他们选择的歌曲,该产品引发了爆发式裂变。目前,WOMBO Dream算法应用的是OpenAI开发的CLIP所引导的方法。
DeepAI
于2017年成立于旧金山,曾于2019年获得种子轮融资。DeepAI使用HTML5、Google Analytics和jQuery等12项技术产品和服务。DeepAI的技术包括ViewportMeta、iPhone/Mobile兼容和GoogleFontAPI等。最初其功能是将黑白照片自动上色为彩色。
三、大厂进展
Imagen
2022年5月,Google Research发布了Imagen。此次谷歌的Imagen抛弃了从文本特征映射到图像特征再用GAN或扩散模型生成图像的常规思路,而是使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。这里的图像生成模型,依然是扩散模型,是一系列的扩散模型。这就意味着其纯文本数据获取方面和全面性方面比获取图文对数据容易,其文本理解能力上比图文对数据的理解能力强。
Parti
2022年6月,Google公布了其Parti文本到图像的计算机模型,该模型通过研究数百亿个参数来渲染超现实图像。Parti 全称为“Pathways Autoregressive Text-to-Image”(路径自回归文本转图像)。随着可使用参数数量的增长,其输出的图像也能够更加逼真。该模型在生成最终图像之前研究了200亿个参数。
Parti与Imagen不同,Imagen是一种文本到图像生成器,谷歌设计用于扩散学习。该过程通过在图像中添加“噪声”来训练计算机模型,使其变得模糊。然后,该模型学习对静态图像进行解码,以重新创建原始图像。随着模型的改进,它可以将看起来像一系列随机点的东西变成一幅图像。
目前,谷歌没有向公众发布Parti或Imagen。
Facebook/Meta Make-A-Scene
Meta于2022年7月官宣Make-A-Scene的存在,目前,该团队正在测试并收集 Meta 员工的反馈,Make-A-Scene 正在Meta内部开放使用权限。Make-A-Scene可以捕捉预先设置的场景布局,使草图也成为输入内容的一部分,然后用户通过文本输入来对框架进行填充。该模型还可以通过输入文本来创建自己的布局,但这意味着用户放弃了部分控制权。
Microsoft NUWA
2022年3月,微软亚洲研究院最新推出的多模态模型 NÜWA。NÜWA 支持八大视觉生成和编辑任务。其中,支持图像的四类任务包括:文本到图像,草图到图像,图像补全,图像编辑;支持视频的四类任务包括:文本到视频,视频草图到视频,视频预测,视频编辑。7月,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,可生成任意大小的高分辨率图像或长时间视频。
文心·一格( )
文心·一格是基于文心大模型的文生图系统实现的产品化创新。上线于2022年8月19日。这是百度依托飞桨、文心大模型的技术创新推出的“AI 作画”首款产品。百度的AI-飞桨文心大模型,是产业级知识增强大模型。文生图领域的大模型服务,支持输入一段文本描述,并选择生成风格和分辨率,模型就会根据输入的内容自动创作出符合要求的图像。
- 涵盖了国潮,国风等风格
- 依靠百度的算力,出图快,完成度高
- 操作简单的同时也可以高级自定义
美图AI开放平台()
美图AI开放平台是美图公司推出的AI服务平台,专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客户提供经市场验证的专业AI算法服务和解决方案。
- 美图在人脸技术、图像分割、图像增强、图像生成等多个方向存在优势
- 拥有长期的审美积累,能够把握美的趋势,实现艺术与技术的有机结合
- 前沿技术能快速与产品结合,日调用量逾亿次,兼具稳定性与实用性
AI生成在社交媒体上的泛滥讨论一直带有科学伦理方面的色彩和偏见,而关于图像生成技术的讨论则始终由艺术爱好者、设计师、艺术家这类人群在推动,因此,AI Art所带来的关于艺术设计生产效率、知识产权、图像数据复用等方面的延展和保护性服务可能会是下一个市场风向。
另外值得一提的事,近期在全球最大的产品社区Product Hunt上,已经出现了针对AI Art的艺术作品交易市场。这可能是自NFT流行以来又一个新兴的垂类版权交易赛道。
AI Art交易市场
如果优质的AI Art可以卖出一个好价钱,那无疑将会出现一个“全民艺术家”的时代。
当然,任何新兴的技术,在开始都会经历万众瞩目的阶段,之后不免会被市场“失望”之音淹没。AI Art现在正在早期繁荣期,未来,的确也还有一些难点需要攻克。
最重要的问题是,比起AIGC其他赛道,现在的AI Art多了几分性感,却好像少了几分“实用价值”。
首先,随着技术从算法模型下沉到用户的手里,如何精准找到客户群体,进行商业化?作为一项黑科技,尽管目前看来比较吸引人眼球,但是目前AI Art具体的使用者可能仍然停留在:艺术家的灵感工具、设计师的素材工具、普罗大众的猎奇工具。对风格各异的艺术图片有消费需求的个人用户和B端企业究竟有多少?目前还尚未可知。
不过,根据36氪判断,在可以想象到的范围内,AI Art可落地的商业场景主要有以下几类:
- 最直接的是场景用于toC端美图秀秀等消费级修图应用、to设计师端的即时设计等生产工具,为这些产品增加场景丰富度,提高用户黏性,事实上,根据了解,这类厂商也都已经在进行相关的布局;
即时设计已经推出AI设计插件
- 革新专业创作人员的生产方式,比如作为提效工具为插画师、动画师、电影创作者等实现能力补充,解放生产力。未来,大量创造性工作的主要职业能力会体现在生产和粘合数字化素材的能力,而不再是原始的手工工艺(就像想吃米饭需要从种水稻开始);
- AI Art背靠的是广阔的UGC和用户个性化空间,当下能够很好地贴合全民自媒体、低门槛内容制作的潮流,未来也会在元宇宙市场中有更深层次的发挥空间。基于这一点考虑,国内主要内容生产分发的平台、电商平台、互联网大厂等很可能会先后在自有产品生态中孵化AI Art的功能,帮助用户快速生产符合平台调性的艺术内容,同时服务自己的用户和企业客户;
- 由于AIGC这一大领域本身符合无代码潮流,因此AI Art也非常可能具有高潜力的企服价值,最直接的目标企业是广告公司、影视创作公司、建筑事务所等对于艺术效果图有大量需求的企业客户,单是这几类企业就有不低的市场天花板,另外,品牌商家的广告和创意部门也是有力的受众之一;
用Mid Journey生成的品牌广告
不过,不同的用户群体,其具体的需求点又大相径庭,产品后续的迭代也会根据不同的需求进行调整,因此,现在还停留在算法、测试版生成工具、平台社区的AI Art存在形式,也很有可能会因此而分化出不同的价值和服务类型。毕竟,底层技术的革新和赛道的开拓,只是“AI代替人类”万里长征的第一步。
商业化之外,另一机遇与威胁并存的点是,目前的产品多以英语自然语言理解为基础,而汉语、西班牙语、法语、德语、日语等其他主要语言毫无疑问也有相当大的市场需求尚未被满足。在满足不同语言的需求过程中,又会出现更多难题,比如中文的AI学习难度是英文的指数级,这或许也是国内暂时落后于欧美的原因之一。
但挑战也预示着蓝海和机会。比如国内已经出现了第一家以中文自然语言理解为亮点的AI Art公司TIAMAT。再比如在AICG行业发达的日本,第一家能够做到支持日语输入的企业服务级AI Art厂商,势必会有很大的市场空间能够去开拓。
尽管困难重重,但是,欧美VC依然愿意为充满风险的未来机遇买单。
首先,AI Art在目前看来,是比较符合现在海内外认可的PLG/CLG模式,产品能够有效提高生产力,足够从个人使用者逐渐扩展至团队乃至企业使用。在国内,PLG/CLG也都出现了头部公司,比如蓝湖、PingCAP等。
其次,AI 近年来一直被视为未来的方向,只不过落地场景仍需摸索。此刻,AI Art乃至AIGC是AI成熟期里已有明确需求的场景,值得被看好。毕竟,文化和社区正在初步形成。比如Mid Journey基于Discord的服务已经使之成为了Discord上的第二大社群,目前处于内测阶段的国产先发者TIAMAT每天也都会收到成百上千份理由翔实的申请表。一个开放共享的社区对于AI Art领域来说至关重要,也是考核一个AI Art公司的重要标准之一。其贡献还体现在,互联网逻辑下的思维方式,能够快速将AI Art变成一门“数字化技能”。
网友发起了Disco Diffusion词库共享计划
为了更好地进行AI Art创作,网友发起了Disco Diffusion词库共享计划。(因为Disco Diffusion在Google Colab Notebook上的测试版本仍然有一定的理解和生成门槛,但现在不少工具已经加入了关于艺术风格的引导和筛选功能。)
2022年,可称为被Diffusion开启的AI Art元年。接下来的三至五年内,AI Art将会往更加自由的方向发展,比如展现出更强的耦合性,可被用户定制的空间更大,也就是说更贴近“主观创作”的过程,艺术作品中也会分化和体现出越来越细致的用户想法。Google近期上线的DreamBooth AI已经展现出了这一特点。
DreamBooth AI
同时,全球范围内元宇宙、Web3概念的盛行,也给AI Art提供了一个结合思路。搭上了AI 和Web3的双重热门概念,AI Art有可能斩获一批相信未来的投资者。
追风口无错,不过,放眼国内,越加谨慎的投资氛围,有可能对AI Art创业公司的底层能力考核严格。靠新概念融资的时代过去了,未来,能在国内掀起波澜的AI Art创业公司,至少一定能够具备:更深厚的AI算法技术储备、更开放的社区和可观的数据训练壁垒、更贴合东亚使用习惯的产品落地场景、更长期主义理想的创业者。
*实习分析师古振兴对本文亦有贡献