编辑:QQ
【新智元导读】字节跳动AI Lab 智能语音与音频团队(Speech & Audio Team,后文简称 SA 团队 ),最新升级的「情感配音」技术在番茄免费小说平台落地,它不仅可以朗读小说,还可以化身「戏精」表演出人物的「喜怒哀乐」。这一新功能借助自然语言理解(Natural language processing,NLP)将网文转换成剧本,自动区分旁白对话和对应的情感,采用情感化语音合成(Text-to-Speech,TTS)技术,合成出单人多风格情感的有声书,能以抑扬顿挫的韵律赋予旁白故事感,以丰富充沛的情感演绎角色对话,从而让听众获得真人播讲般的沉浸式听感。
准确、平淡的合成语音被广泛应用在语音助手、新闻朗读等领域,但如果你想在小说阅读场景使用「毫无感情」的合成声音,让霸道总裁、俏皮黄蓉用平直冷冰的机械音讲故事,那就行不通了。
为了让AI主播能「哭」会「笑」,像专业配音演员一样传达「深刻的人类情感」,字节跳动 AI Lab SA 团队最新升级了「情感配音」技术,并为番茄免费小说提供 AI 朗读支持。
点击下方音频,你能听得出这居然是 AI 演播的作品嘛?
如何打磨出这样令人惊艳的效果?这期间经历了怎样的思考和抉择,本文将为您揭秘该技术诞生和演进的历程。
解决「两大难」,「情感配音」技术的抉择
番茄免费小说是中国最活跃的免费小说移动阅读平台之一,致力于打造网络文学多元发展产品矩阵。随着 5G 和智能设备的普及,声音内容的消费场景不断被拓展,「听书」功能将成为各阅读 APP 拓展其使用场景的利器。AI 语音合成技术能减少内容有声化的时间和财务成本,但在小说阅读场景中,常规机器合成语音的「机械」听感,难以增强文本生动性和感染力,用户也较难营造身入其境的沉浸感。
AI 能否进行情感化配音,通过情感演绎小说文本,展现小说人物性格特征和情感变化?
面对不同的情节(例如当霸道总裁自负的笑出来时),角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎?
AI 能否像配音演员一样理解文本,并支持业务规模化生产的需求?
面对来自业务的「灵魂三问」,字节跳动 AI Lab 语音合成相关负责人表示,有声阅读 AI 技术需要突破以下两个难点:
- 「贴近真人的 AI 合成音色」:训练具有情感能力、多种副语言(笑声、哭腔、疑问、叹词、语气词)表达能力的 AI 音色,实现更精彩的演绎;
- 「自动精准的 AI 文本理解」:通过文本理解,自动区分旁白和对话,自动判定情感、重音、句间停顿时长;
针对 AI 阅读场景,目前在业界没有完整的技术方案,甚至没有太多相关的学术论文。
为了解决「两大难」,字节跳动 AI Lab SA 团队将技术路线定为:通过语音合成技术(TTS)积累数量丰富的 AI 音色矩阵,生产具有丰富情感演绎效果的单播有声书,覆盖番茄各类题材,攻克难点「1」。同时通过自然语言理解技术(NLP)实现自动化的文本语意理解,识别出不同角色的情感、重音、停顿表达,攻克难点「2」。
下文将以番茄免费小说为例,展示字节SA 团队如何从「情感表达」、「副语言」、「文本理解」三个维度,打造质量堪比付费广播剧的AI朗读效果。
「能说」「会演」,AI 主播为番茄小说「听书」注入情感
为了让 AI 配音更像真人,能够理解剧本中的关键词及情感,字节跳动 AI Lab SA 团队在满足发音清晰、韵律连贯、语调起伏的基础上,研发了基于半监督学习的端到端风格控制声学模型(Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech, P-F Wu, etc, submitted to ICASSP 2022),使得 AI 模型不仅「能说」,而且「会演」。
字节跳动 AI Lab SA 团队相关负责人介绍,他们会按照普鲁契克情感色轮(Plutchik's Wheel of Emotions)设计情感类型,可以提供开心、悲伤、惊讶、恐惧等多种情感色彩,再通过情感迁移的方式,让原本没有情感的发音人获得多情感合成效果。
相比于传统技术,上述新技术对于录制语音库的限制更少,可以允许发音人在更大范围内自由发挥。同时,专门加入的一些情绪脚本,可以更好地收集情感语音,帮助声学模型使用半监督学习 Global Style Tokens(GSTs)对情感表征进行建模,实现说话人音色与情感的解耦。
能「哭」会「笑」,7 种笑声模型以声传情
但仅仅实现情感表达还远远不够,通过与真人主播的详细对比分析,字节跳动SA 团队发现人类语言是以声传情的,因此「副语言」是口语表达不可或缺的重要因素。「副语言」也称「类语言」,指伴随话语的某些声音现象,包括的语音要素特征如停顿、重音、语速、语调等,以及言语的功能性发声如笑声、哭声、叹息声、叫喊声等。于是,团队针对「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等。值得一提的是,在每一类「副语言」现象中,字节跳动 AI Lab SA 团队都进行了十分细致的建模,单单一个笑声就有多达 5~7 种,适用于不同情境下的不同语意表达。
另外,针对小说场景,字节跳动 AI Lab SA 团队还对风格适配度、情感连续性、情感区分性、段落疲劳度进行更加细分的测评,保证合成的效果足够接近真人且具有沉浸感。
突破小说理解技术,AI 文本理解效率远超人工
对于有声小说而言,仅仅在声学层面实现高表现力的合成还远远不够,如何能够实现小说文本的语意理解自动制作话本,才是贴近真人朗读和批量化生产的关键。
在精品 AI 有声书制作中,往往需要人工对小说文本进行标识:划分出对话与旁白的文本,并标识出每个角色的台词及其所要表达出的情感。这一过程往往十分的耗时耗力,导致了精品 AI 有声书无法大规模地扩量生产。
针对这一痛点,字节跳动 AI Lab SA 团队提出了「AI 文本理解」模型 - 一套多任务的长文本理解 AI 系统(A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021)。
「AI 文本理解」通过对于上万本的小说学习,能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿,极大地提升了精品 AI 有声书的制作效率,使得标注人力不再成为 AI 有声书生产的瓶颈。
关于字节跳动 AI Lab 智能语音与音频团队
字节跳动 AI Lab 智能语音与音频团队(AI-Lab Speech & Audio Team),致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来,团队专注于研发行业领先的 AI 智能语音技术,不断探索 AI 与业务场景的结合,以实现更大的用户价值。我们为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前,已服务了上百个业务合作伙伴。伴随字节跳动业务的飞速发展,我们的语音识别和语音合成覆盖了多种语言和方言。未来,我们希望发展 70+ 语言和 20+ 方言,用于满足内容创作与交流平台的需求。团队已有 15 篇论文入选 AI 顶级会议,其中音频生成方向接受了 7 篇论文。
团队招聘信息:
团队采访内容: