(1)音频数字化过程
声音信号的数字化是将模拟声音信号转换成数字编码形式,以便于计算机进行处理的过程,包括取样、量化、编码三个步骤。如图4.1所示为数字化音频过程。
取样(Sampling)就是在某些特定的时刻对模拟信号进行测量。每秒钟的取样次数称为取样频率。取样频率越高,采集到的样本就越多,被取样的声音信号的还原性就越好。
量化(Quantization)是把采样后的信号转换成相应的数值表示。转换后以几位二进制形式表示,即为量化位数。量化位数一般为8位、16位。量化位数越大,采集到的样本的精度和声音的质量就越高,但量化位数越多,需要的存储空间也就越大。
编码(Encoding)就是将量化后的整数值用二进制数来表示。采样频率越高,量化数越多,数字化的信号就越能逼近原来的模拟信号,而编码用的二进制位数也就越多。
采样和量化过程中使用的主要硬件是模拟/数字转换器(A/D转换器)和数字/模拟转换器(D/A转换器)。
图4.1 数字化音频过程
(2)音频获取设备
如图4.2所示,波形声音的获取设备包括麦克风(将声波转换为电信号)、声卡(进行数字化)等。声卡以数字信号处理器(DSP)为核心,DSP在完成数字声音的编码、解码及声音编辑操作中起着重要的作用。使用数码录音笔可离线(Off-Line)获取声音,然后再通过USB接口直接将已经数字化的声音数据送入计算机中。
图4.2 声音获取设备
(3)声音的播放
声音的播放通常分为两步,包括声音重建和发音。声音重建是把声音从数字形式转换成模拟信号形式,具体分为解码、数模转换、插值处理三个步骤。声音重建也是由声卡来完成的。发音是将模拟声音信号经过处理和放大送到扬声器(音箱、耳机等)发出声音。其中普通音箱接收的是重建的模拟声音信号,数字音箱可直接接收数字声音信号,声音失真更小。
(4)波形声音的主要参数(www.daowen.com)
波形声音的主要参数包括取样频率、量化位数、声道数目、使用的压缩编码方法。数码率指的是每秒钟的数据量,也称比特率、码率(单位:bit/s)。数字声音未压缩前,其计算公式为:波形声音的码率=取样频率×量化位数×声道数。数字声音压缩编码以后,其计算公式为:波形声音的码率=压缩前的码率÷压缩倍数。
(5)语音合成
语音合成是根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程。目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text-To-Speech,简称TTS)。文语转换过程包括文本分析、韵律分析、语音生成。
(6)常见的声音文件格式
存储声音文件的格式有很多种,常见的声音文件格式有如下几种:
①WAV文件
WAV文件又称波形文件,数字波形声音是使用二进制位表示的一种串行比特流,其数据按时间顺序进行组织,文件扩展名为.WAV。数字波形声音文件的数据量很大,其大小近似地等于大量的声音数据所占用的存储空间。
②MIDI文件
MIDI(Musical Instrument Digital Interface)乐器数字接口是计算机中描述乐谱的一种标准描述语言,规定了乐谱的数字表示方法(包括音符、定时、乐器等)和演奏控制器、音源、计算机等相互连接时的通信规程。它将所要演奏的乐曲信息用字节进行描述。譬如,在某一时刻,使用什么乐器,以什么音符开始,以什么音调结束,加以什么伴奏等,也就是说,MIDI文件本身并不包含波形数据,不是实际的声音。所以MIDI文件非常小巧,易于编辑、处理。一首乐曲对应一个MIDI文件,其文件扩展名为.MID或.MIDI。播放MIDI音乐时,它先从磁盘上读入.MID文件,解释其内容,然后以MIDI消息的形式向声卡上的音乐合成器发出各种指令。
③MP3文件
简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer 3,所以人们把它简称为MP3。MP3音乐文件是利用MPEG Audio Layer 3的技术,将音乐以1∶10甚至1∶12的压缩率,压缩成容量较小的文件,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还非常好地保持了原来的音质。正是因为MP3体积小、音质高的特点使得MP3格式几乎成为网上音乐的代名词。
④其他格式声音文件
WMA文件是微软公司的流式声音文件,PCM文件是使用PCM编码的声音文件,AIF文件是苹果公司的声音文件格式,VOC是声霸卡使用的音频文件格式,AU文件主要用在UNIX工作站上。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。