声音是计算机信息处理的主要对象之一,计算机是如何存储、处理、传输声音的呢,本节将对声音的数字化过程进行相关介绍。
图4-4 模拟音频示意图 |
下面介绍一下声音信号的几个基本参数:频率和带宽、周期、幅度、复合信号。
声音信号每秒钟变化的次数称为频率,单位是Hz。人耳可感受到的声音信号频率范围为20Hz~20000Hz。这个范围内的声音信号称为音频信号。其中,人的说话声音是一种特殊的声音,其频率范围约为300Hz~3400Hz,称为语音或话音、言语。现实世界中其他各种声音,如风声、狗声、音乐声等,其带宽可达到20Hz~20kHz,称为全频带声音。一般来说,频率范围(称为带宽)越宽,声音质量越高。
周期指相邻声波波峰间的时间间隔。
幅度表示信号强弱的程度,人们主观感觉为响度或音量。幅度越大,其信号强度越大。
复合信号指音频信号由许多不同频率和幅度的信号组成。在复音中,最低频率为基音,其他频率为谐音,基音和谐音组合起来,决定了声音的音色。
声音信号有三个基本要素:音调、音强、音色。
音调与声音的频率有关。频率高则音调高,频率低则音调低。
音强又称为响度,用来描述声音的强弱,与声音的幅度有关。
音色由混入基音的泛音决定。每个基音具有固定的频率,和不同音强的泛音混合在一起,从而使每种声音具有特殊的音色。
由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此模拟信号必须经过一定的变化和处理,转换成二进制的数据后才能送到计算机中进行再编辑和存储,而这个转换过程就称为声音信号的数字化。声音信号数字化的过程如图4-5所示。
图4-5 声音信号的数字化过程
(1)采样。
采样即每隔一个时间间隔在模拟信号上取一个幅度值。采样后得到的是离散的声音振幅样本序列,称为采样值,仍是模拟量。通过采样把连续的声音信号变成离散的声音信号。单位时间内采样次数称为采样频率f,为了不产生失真,采样频率不应低于声音信号最高频率的两倍,因此,语音信号的采样频率一般为8kHz,音乐信号的采样频率在40kHz以上。在MPC中,采样频率标准定为:11.025kHz、22.05kHz、44.1kHz。
(2)量化。
量化是将采样所得到的值数字化,即用二进制数来表示模拟量。量化的二进制位数是量化精度,用B位二进制码可以表示2B个不同的量化电平。量化精度越高,声音的保真度越好。在MPC中,量化精度标准定为8位或16位。
采样和量化的过程称为模/数(A/D)转换。
(3)编码。
经过采样和量化后的音频信号数据量很大,占用大量的存储空间,因此还必须对它进行压缩编码处理,以便于在计算机中存储,在网络上进行传输等。
声音数字化后,常以波形声音的文件格式WAV存储,称为数字化波形声音。
波形声音的主要参数包括:取样频率、量化位数、声道数目、使用的压缩编码方法以及比特率(也称为码率)。所谓码率指的是每秒钟的数据量。数字声音未压缩前,码率的计算公式为:波形声音的码率=采样频率′量化位数′声道数。例如,一个双声道声音,用16位表示一个采样的样值,采样频率为22.05kHz,这时的数据量为88.2KB/s。压缩编码后的码率是压缩前的码率除以压缩倍数。
数字化波形声音的数据量很大,必须经过编码处理,以适应存储和传输的要求。而在声音信号中存在许多冗余成分,比如一些间隔和一些人耳分辨不出的信息,因而存在压缩的可能性。
表4-2列举了几种常用的全频带声音的压缩编码方法。
表4-2 全频带声音的压缩标准
名 称 |
码率(每个声道) |
声道数目 |
用 途 |
MPEG-1层1 |
192 Kbps(压缩4倍) |
2 |
数字盒式录音带 |
MPEG-1层2 |
128 Kbps(压缩6倍) |
2 |
数字广播声音、CD、VCD |
MPEG-1层3 |
64 Kbps(压缩12倍) |
2 |
ISDN上的声音传输 |
MPEG-2 audio |
与MPEG-1层1、层2、层3相同 |
5.1、7.1 |
同MPEG-1 |
Dolby AC-3 |
64 Kbps |
5.1、7.1 |
DVD、DTV、家庭影院 |
MPEG代表的是MPEG活动影音压缩标准,MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。其中MPEG-1音频文件根据压缩质量和编码复杂程度的不同可分为三层,分别与MP1、MP2、MP3这三种声音文件相对应。因特网上的音乐格式以MP3最为常见,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100首MP3歌曲。
MPEG-2音频文件能支持5.1声道和7.1声道的环绕立体声。它有两种声音数据压缩格式,一种是MPEG-2 audio,它与MPEG-1是兼容的,所以又称为MPEG-2 BC(Backward Compatible,后向兼容);另一种是MPEG-2 AAC(Advanced Audio Code,先进的音频编码),而它与MPEG-1不兼容,因此又称为MPEG-2 NBC(Non Backward Compatible,非后向兼容)。目前因特网上传播的MP4是采用MPEG-2 AAC音频压缩技术,能将压缩比提高到15:1,且不影响音乐的实际听感。MP4的大小仅为MP3的3/4,而更重要的是,它采用独特的Solana数字水印技术,方便追踪和发现盗版发行行为,能有效保护版权,这是MP3所无法比拟的。
杜比数字AC-3是美国杜比实验室开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个(或7个)全频带声道加一个超低音声道组成,在数字电视、DVD和家庭影院中广泛使用,使人们真正享受到5.1(7.1)通道立体声效果。
除了全频带声音的压缩编码标准以外,在有线电话通信系统中,国际电联电信标准化部门(ITU-T)对语音编码技术进行标准化,并提出了一系列语音编码协议:采用波形基编码方式的主要有G.711、G.721、G.722、G.723、G.726、G.727,采用参数基编码方式的主要有G.728、G.729、G.729A、G.723.1。这些协议分别运用于公共电话网、会议电视、IP电话、无线移动网、数字多路复用系统和计算机通信系统中。
MIDI(Musical Instrument Digital Interface),译作乐器数字化接口,是为了把电子乐器与计算机相连而制定的一个规范,是数字音乐的国际标准。它规定了电子乐器与微型机之间连接的电缆和接口标准;规定了电子乐器之间或电子乐器与微型机之间传送数据的通信协议;定义了如何对音乐进行编码。通常把MIDI格式的文件简称为MIDI文件,其文件扩展名为.mid。
MIDI音乐如何制作呢?我们需要一种称为音序器的软件,常用的音序器软件有Cakewalk、Encore等。音序器将MIDI演奏器(如MIDI键盘)的弹奏过程以MIDI消息的形式记录下来。MIDI消息是乐谱的一种数字式描述,每个MIDI消息描述一个音乐事件,比如按了哪个键、力度多大、时间多长、音色如何变化等,一首乐曲所对应的全部MIDI消息组成一个MIDI文件。我们不仅可以使用音序器软件制作MIDI文件,还可以用它对MIDI文件进行修改和编辑,如曲子的音调和速度都可以随意修改。
那么如何播放MIDI音乐呢?我们可以使用媒体播放器软件进行播放。媒体播放器软件首先从磁盘上读入MID文件,把其中的一个个MIDI消息发送给声卡上的音乐合成器,由音乐合成器解释并执行MIDI消息所规定的操作,合成出各种音色的音符,通过扬声器播放出乐曲来。MIDI系统结构如图4-6所示。
MIDI文件记录的不是波形数字化比特流,而是指令的集合。就是因为这个原因,相同时间长度的MIDI音乐文件一般都比波形文件(.wav)小得多。例如记录1分钟音乐,MIDI文件只需10KB,而波形文件(WAV文件)则需10MB,所以MIDI文件不需要压缩,很适合在网上传播。MIDI文件便于编辑,且可以作为配音或伴音和其他的媒体一起播放。正是MIDI文件的这些优点使其得到广泛应用。
图4-6 MIDI系统结构图
与其他存储文件一样,存储声音也是有存储格式的,常见的音频文件如表4-3所示。
表4-3 常用音频文件
文件格式 |
说 明 |
WAV |
Microsoft与IBM公司联合开发的音频文件格式,来源于对声音模拟信号的采样 |
MP3 |
以MPEG-1 layer 3标准压缩编码的一种音频文件格式 |
WMA |
Microsoft开发的Windows媒体格式之一,同音质的文件大小为MP3的1/2 |
MID |
Windows下最常用的MIDI文件存储格式之一 |
RMI |
Microsoft公司的MIDI文件存储格式 |
MOD |
MIDI文件存储格式。其内部自带了一张波形表,通常比MID文件大许多 |
RA |
RealNetworks公司开发的新型流式音频文件格式,可以在网上边下载边收听 |
VOC |
是Creative公司波形音频文件格式,也是声霸卡使用的音频文件格式 |
AU |
Sun公司的声音文件存储格式,主要用于UNIX工作站 |
常用的播放器有Windows Media Player、RealPlayer、Winmap等。