「会演戏」的AI主播！番茄小说落地情感配音技术

编辑：QQ

【新智元导读】字节跳动AI Lab 智能语音与音频团队（Speech & Audio Team，后文简称 SA 团队），最新升级的「情感配音」技术在番茄免费小说平台落地，它不仅可以朗读小说，还可以化身「戏精」表演出人物的「喜怒哀乐」。这一新功能借助自然语言理解（Natural language processing，NLP）将网文转换成剧本，自动区分旁白对话和对应的情感，采用情感化语音合成（Text-to-Speech，TTS）技术，合成出单人多风格情感的有声书，能以抑扬顿挫的韵律赋予旁白故事感，以丰富充沛的情感演绎角色对话，从而让听众获得真人播讲般的沉浸式听感。

准确、平淡的合成语音被广泛应用在语音助手、新闻朗读等领域，但如果你想在小说阅读场景使用「毫无感情」的合成声音，让霸道总裁、俏皮黄蓉用平直冷冰的机械音讲故事，那就行不通了。

为了让AI主播能「哭」会「笑」，像专业配音演员一样传达「深刻的人类情感」，字节跳动 AI Lab SA 团队最新升级了「情感配音」技术，并为番茄免费小说提供 AI 朗读支持。

点击下方音频，你能听得出这居然是 AI 演播的作品嘛？

如何打磨出这样令人惊艳的效果？这期间经历了怎样的思考和抉择，本文将为您揭秘该技术诞生和演进的历程。

解决「两大难」，「情感配音」技术的抉择

番茄免费小说是中国最活跃的免费小说移动阅读平台之一，致力于打造网络文学多元发展产品矩阵。随着 5G 和智能设备的普及，声音内容的消费场景不断被拓展，「听书」功能将成为各阅读 APP 拓展其使用场景的利器。AI 语音合成技术能减少内容有声化的时间和财务成本，但在小说阅读场景中，常规机器合成语音的「机械」听感，难以增强文本生动性和感染力，用户也较难营造身入其境的沉浸感。

AI 能否进行情感化配音，通过情感演绎小说文本，展现小说人物性格特征和情感变化？
面对不同的情节（例如当霸道总裁自负的笑出来时），角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎？
AI 能否像配音演员一样理解文本，并支持业务规模化生产的需求？

面对来自业务的「灵魂三问」，字节跳动 AI Lab 语音合成相关负责人表示，有声阅读 AI 技术需要突破以下两个难点：

「贴近真人的 AI 合成音色」：训练具有情感能力、多种副语言（笑声、哭腔、疑问、叹词、语气词）表达能力的 AI 音色，实现更精彩的演绎；
「自动精准的 AI 文本理解」：通过文本理解，自动区分旁白和对话，自动判定情感、重音、句间停顿时长；

针对 AI 阅读场景，目前在业界没有完整的技术方案，甚至没有太多相关的学术论文。

为了解决「两大难」，字节跳动 AI Lab SA 团队将技术路线定为：通过语音合成技术（TTS）积累数量丰富的 AI 音色矩阵，生产具有丰富情感演绎效果的单播有声书，覆盖番茄各类题材，攻克难点「1」。同时通过自然语言理解技术（NLP）实现自动化的文本语意理解，识别出不同角色的情感、重音、停顿表达，攻克难点「2」。

下文将以番茄免费小说为例，展示字节SA 团队如何从「情感表达」、「副语言」、「文本理解」三个维度，打造质量堪比付费广播剧的AI朗读效果。

「能说」「会演」，AI 主播为番茄小说「听书」注入情感

为了让 AI 配音更像真人，能够理解剧本中的关键词及情感，字节跳动 AI Lab SA 团队在满足发音清晰、韵律连贯、语调起伏的基础上，研发了基于半监督学习的端到端风格控制声学模型（Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech, P-F Wu, etc, submitted to ICASSP 2022)，使得 AI 模型不仅「能说」，而且「会演」。

字节跳动 AI Lab SA 团队相关负责人介绍，他们会按照普鲁契克情感色轮（Plutchik's Wheel of Emotions）设计情感类型，可以提供开心、悲伤、惊讶、恐惧等多种情感色彩，再通过情感迁移的方式，让原本没有情感的发音人获得多情感合成效果。

相比于传统技术，上述新技术对于录制语音库的限制更少，可以允许发音人在更大范围内自由发挥。同时，专门加入的一些情绪脚本，可以更好地收集情感语音，帮助声学模型使用半监督学习 Global Style Tokens（GSTs）对情感表征进行建模，实现说话人音色与情感的解耦。

能「哭」会「笑」，7 种笑声模型以声传情

但仅仅实现情感表达还远远不够，通过与真人主播的详细对比分析，字节跳动SA 团队发现人类语言是以声传情的，因此「副语言」是口语表达不可或缺的重要因素。「副语言」也称「类语言」，指伴随话语的某些声音现象，包括的语音要素特征如停顿、重音、语速、语调等，以及言语的功能性发声如笑声、哭声、叹息声、叫喊声等。于是，团队针对「副语言」现象进行了精细化的建模还原，实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等。值得一提的是，在每一类「副语言」现象中，字节跳动 AI Lab SA 团队都进行了十分细致的建模，单单一个笑声就有多达 5~7 种，适用于不同情境下的不同语意表达。

另外，针对小说场景，字节跳动 AI Lab SA 团队还对风格适配度、情感连续性、情感区分性、段落疲劳度进行更加细分的测评，保证合成的效果足够接近真人且具有沉浸感。

突破小说理解技术，AI 文本理解效率远超人工

对于有声小说而言，仅仅在声学层面实现高表现力的合成还远远不够，如何能够实现小说文本的语意理解自动制作话本，才是贴近真人朗读和批量化生产的关键。

在精品 AI 有声书制作中，往往需要人工对小说文本进行标识：划分出对话与旁白的文本，并标识出每个角色的台词及其所要表达出的情感。这一过程往往十分的耗时耗力，导致了精品 AI 有声书无法大规模地扩量生产。

针对这一痛点，字节跳动 AI Lab SA 团队提出了「AI 文本理解」模型 - 一套多任务的长文本理解 AI 系统（A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021）。

「AI 文本理解」通过对于上万本的小说学习，能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿，极大地提升了精品 AI 有声书的制作效率，使得标注人力不再成为 AI 有声书生产的瓶颈。

关于字节跳动 AI Lab 智能语音与音频团队

字节跳动 AI Lab 智能语音与音频团队（AI-Lab Speech & Audio Team），致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来，团队专注于研发行业领先的 AI 智能语音技术，不断探索 AI 与业务场景的结合，以实现更大的用户价值。我们为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前，已服务了上百个业务合作伙伴。伴随字节跳动业务的飞速发展，我们的语音识别和语音合成覆盖了多种语言和方言。未来，我们希望发展 70+ 语言和 20+ 方言，用于满足内容创作与交流平台的需求。团队已有 15 篇论文入选 AI 顶级会议，其中音频生成方向接受了 7 篇论文。

团队招聘信息：

团队采访内容：

正文

「会演戏」的AI主播！番茄小说落地情感配音技术

相关阅读

‘杜金京抖音’杜金京李安照片?