理论教育 将语音转化为文字的原理及应用

将语音转化为文字的原理及应用

时间:2023-07-06 理论教育 版权反馈
【摘要】:当你用汉语说出一句“我是机器人”时,计算机“听到”的是一段声波信号(如右图)。每小段长度一般为0.02~0.03 秒。随后计算机对这些语音片段进行运算,识别出构成字词发音的最小单位“音素”。这时要用到和汉语发音有关的大量知识,例如“我”字的发音是“wǒ”,包含两个音素,分别是“w ”和“o”。虽然知道了读音,但这并不意味着就知道具体是哪个字,因此计算机要把音素拼接起来识别字、词。

将语音转化为文字的原理及应用

当你用汉语说出一句“我是机器人”时,计算机“听到”的是一段声波信号(如右图)。计算机先要把这段声波中收尾的噪声切除,以降低对后续步骤造成的干扰。然后再把声波割成很多小段,目的是捕捉能分辨细微差别的声音特征。每小段长度一般为0.02~0.03 秒。随后计算机对这些语音片段进行运算,识别出构成字词发音的最小单位“音素”。这时要用到和汉语发音有关的大量知识(即声学模型),例如“我”字的发音是“wǒ”,包含两个音素,分别是“w ”和“o”。声学模型告诉计算机什么样的声波特征最有可能是说话人在发“w”这个音,什么样的声波特征最有可能是说话人在发“o”这个音。当计算机从声波特征里分析出“wo”时,就能判断出一个字的读音了。

虽然知道了读音,但这并不意味着就知道具体是哪个字,因此计算机要把音素拼接起来识别字、词。通常在一句话的上下文中更容易理解一个发音对应哪个字、词。我们小学做的组词、造句练习就有这个作用。当你单独发“jī”时,别人不知道你说的是“机”、“鸡”还是“基”,但如果你说“jī qì rén”,则大部分听说过“机器人”这个词的人就能理解你说的是“机”字。这个看似十分简单的“听力题”需要十分熟悉汉语语言的特点、认识足够多的字和词,还要有一定的生活常识及了解中国汉字文化的基础。

实践活动(www.daowen.com)

在网页中搜索“百度大脑”进入首页之后,在菜单栏的“产品服务”中,选择“语音合成”,在页面的中间部位有一个功能演示,在文本框里输入任何文字内容,计算机都会把它读出来,还可以选择发音的风格。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈