|
|
|
语音识别与合成 |
|
语音识别技术主要包含几个方面:语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。目前主要是在支持中英文,实现中英文混合识别问题上,存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习,它则要求人模仿标准发音,其面临的困难是如何衡量人模仿的好坏。
语音合成技术是计算机"开口说话"的关键,现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出,相应技术通常称为文语合成或文语转换(TTS)。TTS使得数据通信和语音通信在终端一级实现交融,人们将有望在获取Internet信息时,使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。语音合成的主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。
|
|
|
|