您的位置: 网站首页 > 公共课 > 新编计算机文化基础 > 第4章 多媒体技术 > 【4.4 音 频】

4.4 音 频

 

4.4     

声音是计算机信息处理的主要对象之一,计算机是如何存储、处理、传输声音的呢,本节将对声音的数字化过程进行相关介绍。

4.4.1  声音的概念

4-4  模拟音频示意图

声音是由材料(例如二胡的琴弦)振动产生的物理现象。振动触发在材料周围的空气中的压力波上下起伏,压力波在空气中传播,其振荡图形称为波形。当压力波到达耳朵时,我们听到声音。声音信号是模拟信号,是关于时间的连续函数,又称模拟音频,如图4-4所示。

下面介绍一下声音信号的几个基本参数:频率和带宽、周期、幅度、复合信号。

声音信号每秒钟变化的次数称为频率,单位是Hz。人耳可感受到的声音信号频率范围为20Hz20000Hz。这个范围内的声音信号称为音频信号。其中,人的说话声音是一种特殊的声音,其频率范围约为300Hz3400Hz,称为语音或话音、言语。现实世界中其他各种声音,如风声、狗声、音乐声等,其带宽可达到20Hz20kHz,称为全频带声音。一般来说,频率范围(称为带宽)越宽,声音质量越高。

周期指相邻声波波峰间的时间间隔。

幅度表示信号强弱的程度,人们主观感觉为响度或音量。幅度越大,其信号强度越大。

复合信号指音频信号由许多不同频率和幅度的信号组成。在复音中,最低频率为基音,其他频率为谐音,基音和谐音组合起来,决定了声音的音色。

声音信号有三个基本要素:音调、音强、音色。

音调与声音的频率有关。频率高则音调高,频率低则音调低。

音强又称为响度,用来描述声音的强弱,与声音的幅度有关。

音色由混入基音的泛音决定。每个基音具有固定的频率,和不同音强的泛音混合在一起,从而使每种声音具有特殊的音色。

4.4.2  声音信号的数字化

由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此模拟信号必须经过一定的变化和处理,转换成二进制的数据后才能送到计算机中进行再编辑和存储,而这个转换过程就称为声音信号的数字化。声音信号数字化的过程如图4-5所示。

4-5  声音信号的数字化过程

1)采样。

采样即每隔一个时间间隔在模拟信号上取一个幅度值。采样后得到的是离散的声音振幅样本序列,称为采样值,仍是模拟量。通过采样把连续的声音信号变成离散的声音信号。单位时间内采样次数称为采样频率f,为了不产生失真,采样频率不应低于声音信号最高频率的两倍,因此,语音信号的采样频率一般为8kHz,音乐信号的采样频率在40kHz以上。在MPC中,采样频率标准定为:11.025kHz22.05kHz44.1kHz

2)量化。

量化是将采样所得到的值数字化,即用二进制数来表示模拟量。量化的二进制位数是量化精度,用B位二进制码可以表示2B个不同的量化电平。量化精度越高,声音的保真度越好。在MPC中,量化精度标准定为8位或16位。

采样和量化的过程称为模/数(A/D)转换。

3)编码。

经过采样和量化后的音频信号数据量很大,占用大量的存储空间,因此还必须对它进行压缩编码处理,以便于在计算机中存储,在网络上进行传输等。

声音数字化后,常以波形声音的文件格式WAV存储,称为数字化波形声音。

波形声音的主要参数包括:取样频率、量化位数、声道数目、使用的压缩编码方法以及比特率(也称为码率)。所谓码率指的是每秒钟的数据量。数字声音未压缩前,码率的计算公式为:波形声音的码率=采样频率量化位数声道数。例如,一个双声道声音,用16位表示一个采样的样值,采样频率为22.05kHz,这时的数据量为88.2KB/s。压缩编码后的码率是压缩前的码率除以压缩倍数。

4.4.3  音频压缩技术

数字化波形声音的数据量很大,必须经过编码处理,以适应存储和传输的要求。而在声音信号中存在许多冗余成分,比如一些间隔和一些人耳分辨不出的信息,因而存在压缩的可能性。

4-2列举了几种常用的全频带声音的压缩编码方法。

4-2  全频带声音的压缩标准

   

码率(每个声道)

声道数目

   

MPEG-11

192 Kbps(压缩4倍)

2

数字盒式录音带

MPEG-12

128 Kbps(压缩6倍)

2

数字广播声音、CDVCD

MPEG-13

64 Kbps(压缩12倍)

2

ISDN上的声音传输

MPEG-2 audio

MPEG-11、层2、层3相同

5.17.1

MPEG-1

Dolby AC-3

64 Kbps

5.17.1

DVDDTV、家庭影院

MPEG代表的是MPEG活动影音压缩标准,MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。其中MPEG-1音频文件根据压缩质量和编码复杂程度的不同可分为三层,分别与MP1MP2MP3这三种声音文件相对应。因特网上的音乐格式以MP3最为常见,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100MP3歌曲。

MPEG-2音频文件能支持5.1声道和7.1声道的环绕立体声。它有两种声音数据压缩格式,一种是MPEG-2 audio,它与MPEG-1是兼容的,所以又称为MPEG-2 BCBackward Compatible,后向兼容);另一种是MPEG-2 AACAdvanced Audio Code,先进的音频编码),而它与MPEG-1不兼容,因此又称为MPEG-2 NBCNon Backward Compatible,非后向兼容)。目前因特网上传播的MP4是采用MPEG-2 AAC音频压缩技术,能将压缩比提高到15:1,且不影响音乐的实际听感。MP4的大小仅为MP33/4,而更重要的是,它采用独特的Solana数字水印技术,方便追踪和发现盗版发行行为,能有效保护版权,这是MP3所无法比拟的。

杜比数字AC-3是美国杜比实验室开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个(或7个)全频带声道加一个超低音声道组成,在数字电视、DVD和家庭影院中广泛使用,使人们真正享受到5.17.1)通道立体声效果。

除了全频带声音的压缩编码标准以外,在有线电话通信系统中,国际电联电信标准化部门(ITU-T)对语音编码技术进行标准化,并提出了一系列语音编码协议:采用波形基编码方式的主要有G.711G.721G.722G.723G.726G.727,采用参数基编码方式的主要有G.728G.729G.729AG.723.1。这些协议分别运用于公共电话网、会议电视、IP电话、无线移动网、数字多路复用系统和计算机通信系统中。

4.4.4  MIDI的概念

MIDIMusical Instrument Digital Interface),译作乐器数字化接口,是为了把电子乐器与计算机相连而制定的一个规范,是数字音乐的国际标准。它规定了电子乐器与微型机之间连接的电缆和接口标准;规定了电子乐器之间或电子乐器与微型机之间传送数据的通信协议;定义了如何对音乐进行编码。通常把MIDI格式的文件简称为MIDI文件,其文件扩展名为.mid

MIDI音乐如何制作呢?我们需要一种称为音序器的软件,常用的音序器软件有CakewalkEncore等。音序器将MIDI演奏器(如MIDI键盘)的弹奏过程以MIDI消息的形式记录下来。MIDI消息是乐谱的一种数字式描述,每个MIDI消息描述一个音乐事件,比如按了哪个键、力度多大、时间多长、音色如何变化等,一首乐曲所对应的全部MIDI消息组成一个MIDI文件。我们不仅可以使用音序器软件制作MIDI文件,还可以用它对MIDI文件进行修改和编辑,如曲子的音调和速度都可以随意修改。

那么如何播放MIDI音乐呢?我们可以使用媒体播放器软件进行播放。媒体播放器软件首先从磁盘上读入MID文件,把其中的一个个MIDI消息发送给声卡上的音乐合成器,由音乐合成器解释并执行MIDI消息所规定的操作,合成出各种音色的音符,通过扬声器播放出乐曲来。MIDI系统结构如图4-6所示。

MIDI文件记录的不是波形数字化比特流,而是指令的集合。就是因为这个原因,相同时间长度的MIDI音乐文件一般都比波形文件(.wav)小得多。例如记录1分钟音乐,MIDI文件只需10KB,而波形文件(WAV文件)则需10MB,所以MIDI文件不需要压缩,很适合在网上传播。MIDI文件便于编辑,且可以作为配音或伴音和其他的媒体一起播放。正是MIDI文件的这些优点使其得到广泛应用。

4-6  MIDI系统结构图

4.4.5  常用的音频文件

与其他存储文件一样,存储声音也是有存储格式的,常见的音频文件如表4-3所示。

4-3  常用音频文件

文件格式

    

WAV

MicrosoftIBM公司联合开发的音频文件格式,来源于对声音模拟信号的采样

MP3

MPEG-1 layer 3标准压缩编码的一种音频文件格式

WMA

Microsoft开发的Windows媒体格式之一,同音质的文件大小为MP31/2

MID

Windows下最常用的MIDI文件存储格式之一

RMI

Microsoft公司的MIDI文件存储格式

MOD

MIDI文件存储格式。其内部自带了一张波形表,通常比MID文件大许多

RA

RealNetworks公司开发的新型流式音频文件格式,可以在网上边下载边收听

VOC

Creative公司波形音频文件格式,也是声霸卡使用的音频文件格式

AU

Sun公司的声音文件存储格式,主要用于UNIX工作站

常用的播放器有Windows Media PlayerRealPlayerWinmap等。