奥运之声(OlyVoice)

—— 捷通华声语音合成技术 v4.0 奥运版

2006/2/7

一、产品背景

  捷通华声公司于 2002 年 12 月承接了国家信息产业部下达的《奥运之声-面向奥运的多语种声讯服务平台》任务的开发工作。以此项目为基础,捷通华声全力投入到多语种语音合成平台的设计和开发工作中,并将此作为 jTTS4.0 升级的重要内容。

  在 2003 年 4 月,捷通华声公司又承担了北京市科委下达的《面向奥运的多语种语音合成产品研制》项目。这一项目是《面向奥运的多语言智能信息服务网络系统》的一项重要的子课题,《面向奥运的多语言智能信息服务网络系统》是北京市科学技术委员会批准的 2003 年至 2004 年度重点科研项目,也是科技奥运十大专项之一。多语种语音合成产品是构成整个服务网络系统的重要组成部分,其主要目的是:借助语音合成技术,利用计算机将文本自动播报出来,按用户选定的语种自动播报出来,本产品支持包括汉语、英语、日语在内的多种语言,从而打破语言的界限和隔阂,及时地以无障碍的语音形式提供各类奥运信息;采用语音这种最自然的人机交流方式,提供信息发布、信息查询、人机交互等多种形式的信息服务,保证任何人在任何时间、任何地点、通过任何手段获取奥运相关信息。

    《jTTS4.0 多语种语音合成平台产品》正是在这个背景下推出的。我们相信,这一产品的推出,必然会有力地促进国际交流,推动奥运建设,为 “ 科技奥运 ” 、 “ 人文奥运 ” 贡献自己的力量。

二、产品结构

1 、核心结构

    jTTS4.0 多语种语音合成平台系统结构如上图所示。 jTTS4.0 多语种语音合成平台是以一种开发式的架构进行设计的,其核心是一套统一的对外编程接口( API - Application Programming Interface ),即 jTTS API 4.0 ,以及统一的多语种引擎管理模块,即 jTTS_ML.DLL 。多语种的引擎(例如中文引擎 jTTS_CH.DLL ,英文引擎 jTTS_EN.DLL 等)在多语种引擎管理模块的调度下进行实际的合成工作,而目前尚未提供的其他语种的引擎也可以方便地加入到这个体系结构中来。

    jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等则为各个语种的 TTS 实际引擎。引擎和音色库的基本概念如下:

•  每个引擎可以支持多个语种。

•  可以有多个引擎支持同一个语种,例如上图中的 jTTS_CH2.DLL 也支持中文。

•  每个引擎可以有多个音色 ( 一般也对应了多个音库 ) ,每个音色都有一个唯一的 GUID 。

•  每个音色只能支持一种语种。

•  每个音色可以支持多个领域 (Domain) ,不同音色可以支持不同的领域范围。

•  每种方言(例如广东话)是作为一个独立语种出现。

2 、产品体系结构

•  开发工具包——包括开发所需的头文件、链接库文件、示例程序。

•  语音合成服务器——语音合成服务软件、监视工具等。

•  基本运行时刻库——包括最基本的引擎管理模块,通用工具,说明书等。

•  多个独立的音库——包括相应的合成引擎和所需的文本分析库、音库。

•  多个独立的资源包——每个资源包针对某个音库以及一个特定领域。

  用户在使用时同样可以采用本地合成方案、网络合成方案、集群网络合成方案进行合成工作。

三、产品特点

1.支持多语种,支持多领域的设置。

2.支持音色的查找、访问、加载等。

3.支持 SSML (语音合成标记语言, Speech Synthesis Markup language )。

4.可以直接播放文本文件,也支持外挂抽取文本的 DLL 以支持其它格式。

5.支持 GB (包括 GB2312, GBK, GB18030 )、 Big5 、 Shift-JIS 、 ISO-8859-1 、 Unicode 、 Unicode Big Endian 、 UTF8 等各种字符集,自动识别具有 BOM 标记的 Unicode 文本。

6.支持同步、异步合成一个 Session ,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又提供了一个选择。

7.可以外挂语音格式转换程序。

8.全新的中英文混读引擎

    中文引擎放弃了原来使用的第三方的英文引擎(即 Microsoft Free 的 SAPI 英文引擎),采用了自行开发的英文引擎,达到了清晰流利、中英文同一音色的效果。

9.预处理功能

    中文引擎在预处理部分做了比较大的改进:

    1).采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析算法,提供了更好的韵律分析结果,阅读更为自然流畅。

    2).全面改进了多音字处理算法,多音字的误读率大为下降。

    3).改进了数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。

10.多领域支持

    中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了利用模板拼接技术的特定领域音库,在金融证券、旅游餐饮、体育赛事等领域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化资源包,可以大大提高特定领域文本的合成效果。同时,多领域支持也采用了一种模块化的方式,用户可以自行安装不同领域的资源包。

11.对 SSML 的支持

    SSML(Speech Synthesis Markup Language) 语音合成标记语言定义了一套丰富的,基于 XML 的标记语言以支持在 Web 语音浏览器或者其它应用程序中生成合成语音。这一标记语言的主要作用在于提供给合成内容的作者一个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。

    从 jTTS 4.0 开始,捷通华声语音合成系统定义了 S3ML (SinoVoice Speech Synthesis Markup Language) ——捷通华声语音标记语言。 S3ML 符合基本的 SSML 规范,但更为详细地定义了 SSML 没有精确定义的部分(例如 <Say-as> 的具体语法),同时也支持一些针对中文语音合成的扩展。

 


 


Copyright©2005, 北京捷通华声语音技术有限公司 All Rights Reserved.
电话: (86-10)82826886, Email: marketing@sinovoice.com.cn