高保真音色媲美真人，StyleTTS为QQ浏览器「听书」语音注入情感

情感导师 2022-12-01 7223

添加导师微信MurieL0304

获取更多爱情挽回攻略婚姻修复技巧恋爱脱单干货

机器之心专栏

机器之心编辑部

QQ 浏览器「听书」背后的 StyleTTS 让合成语音有了情感的温度。

今年 4 月，QQ 浏览器宣布「小说频道」正式变更为「免费小说」频道，这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载，其阅读方式也随之几经改变。

与此同时，科技的发展也在革新着阅读方式，例如语音合成技术的成熟让越来越多的读者选择听小说。语音合成技术中，让声音富有情感和表现力，一直是一大难点。而 QQ 浏览器最近上线的「听书」功能中，应用腾讯 PCG AI 交互部 StyleTTS 端到端合成框架业内创新技术让合成语音有了情感的温度，高保真音色可与真人媲美。

QQ 浏览器使用的 StyleTTS 利用精心设计的语音语料库进行声学模型和文本处理模型的训练，得到的模型深度挖掘了语音语言特性，合成的语音清晰、自然、亲切、具有高表现力。现阶段 QQ 浏览器「听书」功能已上线多种音色，每个音色都有自己的风格，满足不同人群的阅读喜好。在最新的一次更新中，QQ 浏览器上线了三名作家 AI 音色包，不同寻常的玩法背后是 QQ 浏览器为 AI 合成声音进一步应用落地的尝试。

端到端声学模型，实现跨发音人的风格控制合成

其实，语音合成技术一直伴随着网文的发展，因为它的历史更加久远。1939 年贝尔实验室利用共振峰原理制作的历史上第一台电子合成器属于语音合成的一个重要开端，直到上世纪 90 年代基于大语料库的单元挑选与波形拼接合成方法出现，可以合成高质量的自然人语音。在神经网络出现之前，波形拼接一直是语音合成的主要方式。波形拼接的基本原理就是根据输入文本的信息，从人工录制与标注的语料库中挑选合适的基元（通常为音素或音节），进行少量的调整，然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料，而且拼出来的语音虽然能让人听懂，但很难做到自然流畅。当波形拼接合成应用在朗读小说时，其合成语音比较僵硬，机械化的电子声音并不能给听众带来良好的听觉体验。而人类读文章时有自然的换气和停顿，韵律自然，听起来才不会累。

深度神经网络克服传统的文本到语音转换系统的局限性，匹配口语中的语音顿挫和语调模式和韵律，并将语音单元合成为计算机语音。通过声学建模，即将文本特征转换为声学特征，利用半监督机器学习技术，实现了高精度、自动化的字音判别和贴近真人的语音生成效果。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样，具备人类语音一样的自然韵律和词汇清晰度。

StyleTTS 结构图

端到端语音合成系统，由前端、声学模型和声码器三部分组成。前端主要解决基于语义理解的文本发音问题，主要包含文本正则、分词、字转音、停顿预测等；声学模型负责为语音赋予韵律，比如语速、语调、停顿、重音和情绪变化等；最后一部分声码器负责还原语音的声学特征，也就是一般所说的嗓音或声线，如振幅、频率、波长等。

为了更贴近朗读者的声音特点，QQ 浏览器此次用到的 StyleTTS 的端到端语音合成更加重视个性化与情感共鸣，合成效果也具有更高的自然度、辨识度，同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制，从而满足不同场景的需求。在前期上线的 6 个音色是精心挑选的具有小说风格同时有一定特点的声音，其中还包括东北女声。

腾讯 PCG AI 交互部相关负责人向机器之心表示，在录制音库时，会专门加入一些东北方言文本，发音人按照方言朗读。训练 StyleTTS 声学模型时使用无监督学习帧级 VAE 对韵律进行帧级表征，实现说话人音色与韵律解耦，而与口音相关信息主要保留在韵律模型部分。在东北女声上，使用方言、普通话不同数据对韵律部分进行对抗训练，加强韵律模型对口音的学习。

除了不同风格的音色以及方言，QQ 浏览器运用的 StyleTTS 端到端合成框架支持通过不同人 (声) 的韵律模型和音色模型重组搭配，能够实现跨发音人的风格控制合成，并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达，这对于语音合成来说是非常大的突破。此外，模型还加入说话人特征编码、语种特征编码等经典方法，进一步提升建模能力。未来，利用 StyleTTS 框架优势，可以让同一人学习并具备多种风格和语种，就能给用户带来更多选择。

生成语音中的韵律、表现力等由声学模型决定，而清晰度则由声码器决定，声码器限制了最终合成语音的音质，同时也是整个语音合成模型的计算瓶颈。语音阅读主要在移动端，不仅对音质有高要求，同时也对性能提出很大挑战。StyleTTS 端到端合成框架采用 Multi-band MelGAN 分频带建模，可以在较短时间内合成较好的音频。针对移动端做了定制优化，在保证音频质量没有明显下降的情况下，实现合成速度数倍提升。

关于语音合成在情感表达准确度的分辨，目前业内主要还是靠人工主观测听，通过 MOS 评分来判断。为此，QQ 浏览器正在联合腾讯 PCG AI 交互部等多方建立一套更加细致的音色生产和评分机制，从场景、风格、语速、年龄、语调、音质等多个维度进行详细评分，综合评价每一个音色的品质。

QQ 浏览器的月活跃用户如今达到 4.45 亿，并且将免费小说作为一级入口放在了底部菜单栏，让用户打开浏览器就能够找到小说阅读的界面，足可见小说在其 “内容 + 服务的综合信息平台” 定位中的重要性。免费小说为 QQ 浏览器带来增量的同时，也让更多的优质 IP 得到了更大范围的推广。而 “听书” 为读者提供了另一种阅读方式，在增加了用户粘性的同时，也将吸引全新的读者。为此，QQ 浏览器也在 “听书” 模式上进行不断地尝试，从而为读者提供更好的阅读体验，StyleTTS 的应用则进一步满足了 “听书” 的个性化需求。

语音合成成本降低，探索阅读新玩法

在刚刚过去的国际盲人节，QQ 浏览器免费小说 “听书” 功能更新，推出叶非夜、公子衍、青衫取醉三位阅文作家的 AI 音色包，并上线 “朗读官” 频道。名人更具有影响力和号召力，因此容易被选择录制音色包，而 QQ 浏览器选择了三位作者，可以看出 QQ 浏览器在数字阅读方面积极探索玩法持续创新的决心，听作者读自己写的小说确实别有一番感受。

QQ 浏览器免费小说频道拥有阅文集团上千万本小说以及上百万作者资源，这意味着在阅读上有足够的空间去做创新。如此一来，读者的体验感和大众化的默认语音会呈现巨大的不同。

传统语音合成定制需要 10 小时以上的数据录制和标注，对录音人和录音环境要求很高，从启动定制到最终交付，制作周期长且成本高昂。而如今 QQ 浏览器运用的 StyleTTS 通过海量高质量录音数据构建了一个稳定的基础模型，只需要每种情感少量数据，就能很好的还原该发音人不同情绪效果，节省了大量的人力、物力及时间成本，且得到的效果几乎与真人朗诵别无二致。

在中国主流音频平台上，有声书受欢迎度以 66.3% 高居榜首。而相关研究数据显示，中国现在已经成为全世界第二大有声阅读市场，2020 年中国的有声阅读市场规模已经超过 80 亿元。预计到 2022 年，有望超过美国，成为全球第一大有声阅读市场。可以想象，随着 StyleTTS 这一技术的应用普及，有声书行业也将随之发生巨大的改变。

如何让人工智能具有人类的特质和技能？答案是不断吸收和学习。谷歌曾让它的 AI 读 2000 多本言情小说，只为它能像真人和人类对话，而且对话内容有更多的风格。而对于 StyleTTS 来说，为了能像真人一样说话，同样需要海量的录音数据供其分析、归纳从而吸收。在 QQ 浏览器「听书」功能中落地为 StyleTTS 提供了丰富的实践反馈，而 AI 朗读技术也将逐渐成熟、音色选择多、丰富流畅，将让听书成为常态。

腾讯 PCG AI 交互部相关负责人表示，「听书」是 StyleTTS 现在重要发展的领域，后续会在用户个性化、多角色、情绪、情感等分析识别，甚至自动配乐、音效等更多尝试，逼近真人配音制作的水平。此外，在短视频、AI 交互、社交、实时通信等领域会有更多的应用探索。通过打造高品质、高效率的音视频内容创作工具，帮助创作者们进行更好的创作。

体验链接：https://novel.html5.qq.com/qbread/reader?csr=1&ch=009241