“忘不了你的爱,但结局难更改……”
9月28日,一则十几秒的短视频在微博、抖音等多个平台突然走红。画面中,一名女孩手捧吉他、深情地唱着歌曲《男孩》,恍若千千万万个再普通不过的弹唱表演。
但事实上,视频的主角并非普通人、甚至不是通常意义上的“人”。而是数月前走红的清华首个虚拟学生“华智冰”,这也是她继今年6月亮相后首次正面露脸及出镜表演。
相比之前,“唱”起来的华智冰更加高度形似真人,很快二度爆红网络,多数网友直呼“这真的不少真人吗?分不清楚了”。
据悉,当天相关视频在抖音疯转、并登上热榜,不到一天时间播放量近2500万,引发网友热议,随后#清华首个AI虚拟学生正面亮相#话题也登上微博热搜。截至发稿前,该话题阅读达1.2亿。
然而铺天盖地的讨论下,不少“吃瓜”网友却被越看越迷糊:看了半天,这个女生到底有没有实体?到底是机器人还是真人。同时也不乏部分声音认为:这不就是AI换脸,加上一个智能语音?
那么这个让网友既好奇又迷惑的“华智冰”,究竟是怎么回事?
视频是AI,但又不完全是
首先需要说明的是,并非如部分网友想象的科幻感拉满,正面出镜唱歌的华智冰并非由3D模型直接生成。正如原视频描述,华智冰肢体表情训练及视频来源,均是来自小冰团队成员“鱼子酱酱”。
GameLook进一步发现,华智冰弹唱视频原型其实是“鱼子酱酱”在B站发布的,一则名为“女孩天台深情弹唱《男孩》”的视频。而她也在评论区表示视频获得了自己授权,这也是其加入小冰团队后参与的第一个项目。
具体对比两则视频可以明显发现,人物动作基本保持一致,但华智冰的脸型与原作者有着明显区别。某种程度上来说,前者更具大众意义上的“学生感”,也符合其清华AI虚拟学生的定位。
上为鱼子酱酱,下为华智冰
相比外形,其实唱歌才是整个视频中最惊艳的部分。要知道,其歌声、人类特征均由人工智能技术完成。而不同于目前初音未来通过vocaloid合成的歌声,华智冰的表演更加自然,基本给人一种无限接近人声的感受,甚至仔细听才能从歌声中察觉到一丝淡淡的电音。而在首个曝光视频中,华智冰的声音比之如今明显少了几分情感。
事实上,华智冰的表演之所以给人一种以假乱真的错觉,源自其能够“持续学习”的最大特征。
直白点说,依托目前我国首个超大规模智能模型——悟道2.0,拥有持续学习能力的华智冰同人类一般,能够通过文本、视觉、图像、视频等数据学习、慢慢“长大”,最终迈向真正意义上的人工智能。
华智冰,真正的AI?
今年6月,一位清华新生的入学引发全网讨论,并引来多家媒体争相报道——而这也是华智冰的初次亮相。
彼时,由北京智源人工智能研究院、智谱AI与小冰公司共同打造的华智冰,作为我国首位原创虚拟学生正式入学清华大学计算机系,并师从智源研究院学术副院长、清华大学教授唐杰。更有意思的是,清华甚至真的为她办理了学生证和邮箱。
毫无疑问,华智冰最初更多是凭借其清秀的AI合成外形,受到外界广泛关注。但很快网友发现,这位“新生”不光有颜也更有才。例如绘画、写诗等艺术创作信手拈来,之后甚至还能编程、写代码、做网页,且具有一定的推理和情感交互的能力。
可以看见,最初放出的演示视频中,真实展示了AI学生华智冰的音乐、水墨画、水彩画、以及古体诗和现代诗等多项创作,可谓是多才多艺。
而纵观整个视频,尽管大部分画面是由真人演员录制合成,露脸镜头也只有一处静态画面。可华智冰的旁白、面容,以及诗词、绘画作品均是基于小冰框架的AI生成技术、以及最关键的“悟道2.0”模型制作。
要知道,作为中国规模最大的预训练模型,悟道2.0包含了1.75万亿参数,可以在几万个CPU上进行预训练,包括中文数据、英文数据、图数据等。反观华智冰的优势之一,则是可以一天24小时不断学习。也就是说,随着时间的推移,不断学习的华智冰将大量新能力融入自己模型后,将会一日千里、变得愈发聪明。
快速学习成长——这无疑是人类印象中最鲜明的人工智能形象,也更多让人想起《我,机器人》《机械姬》等经典科幻电影中,AI超越人类引发的一连串悲剧故事。
不过唐杰在采访中表示,目前从记忆方面来说,数据规模达几个T的华智冰远超人类。但如果从推理、逻辑、计算能力上讲,她的能力可能只有几岁,定位为小学生都不为过。
对此,研发团队早已给华智冰定下了一个“读万卷书”的三年计划:“第一年,我们希望她能泛读天下书,说白了就是要读全世界的数据;第二年做“精读”,理解能够更深刻。第三年,希望她可以有创造能力,创造出全新类型的东西。”
除此之外,华智冰目前已经开始探索招生等方面的相关应用。未来还将探索养老、人机陪伴等重要领域。
另一位AI数字航天员
同样是为了应用服务于现实场景,令GameLook印象深刻的,还有今年腾讯游戏发布会上公布的首位数字航天员“小诤”。她将承担载人航天工程、行星探测工程、探月工程等重大航天项目的“现场报道”。
今年6月,腾讯与新华社联合打造专门面向航天主题和场景研发的数字记者“小诤”。基于NExT Studios的制作管线和实时渲染,以及真人动作捕捉等技术,这位数字航天员其实形象更接近真人。
据悉,小诤脸部由5000个微表情组成,同时还有多达10万根发丝和143根骨骼的细节。此外通过长约20个小时、13339条语句的,包含语音、面部运动和身体运动的多模态训练数据集,如今小诤拥有真人般表情、动作、声音和语言表达。
更重要的是,她完全由人工智能进行全权驱动,除能以情绪带动面部表情外,还包括身体运动。而且从新华社报道的描述来看“人工智能驱动我的一切,我能不断成长”,意味着这名数字记者也将拥有更多成长的可能。
从小诤到华智冰、航天报道到大学招生,AI技术显然已经开始逐渐融入我们的生活。也许,无数小说电影游戏中描绘的人工智能时代,真的不再同想象中那般遥远。