jTTS (捷通华声语音合成技术)

· 核心技术原理      · 技术特点       · 性能指标     

捷通华声语音合成核心技术(jTTS)基于大规模真实录音的语音库,在合成过程中,根据一系列的匹配规

则从大规模语音库中寻找最合适的不定长匹配单元进行拼接,以达到使合成语音自然、流畅的目的。

核心技术原理

语音合成技术其他的流行算法包括参数合成、波形拼接方法。参数合成的方法依赖于一个完善的语音生成

模型,但目前语音学的发展尚不能提出很完善的模型。波形拼接需要在合成过程中调节韵律参数以适合不

同的上下文环境,对提高自然度有一定作用,但处理后的语音和音色和原始语音不完全一致,有回声和机

器声。

捷通华声语音合成技术针对其他算法的缺陷,采用了一种基于拼接自然语言片断的新的技术。其核心技术

的基础是一个大规模自然语音的录音音库。大规模的概念是指录音音库的范围基本覆盖了绝大多数上下文

环境中的各种发音的情况,针对不同的上下文环境,系统将选取最匹配的原始语音片段来加以拼接。由于

音库的规模很大,因此在几乎所有情况下,都能够找到最适合的原始自然语音,而无需使用其它技术进行

调节,因此保证了最终合成的语音和原始语音的一致性。另外,这里所选取的片段超越了音节的层次,而

是一种不定长的语言片断,如多字词或韵律短语,这样就进一步保证了合成语音的自然度。

由于以上原因,捷通华声语音合成技术生成的汉语语音在清晰度和自然度上相比其他系统有了很大的进

步。

 


 

 


Copyright©2005, 北京捷通华声语音技术有限公司 All Rights Reserved.
电话: (86-10)82826886, Email: sinovoicemarket@sinovoice.com.cn