音频基本知识

经验 2024年12月09日 16:56 15 蒙珍

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ¾采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ¾量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ¾压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。 3、流特征随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。第二部分音频压缩编码一．有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的PCM 或WAV音轨。无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频一般不使用于影音世界，但是存在的格式有无损WMA或Matroska里的FLAC。有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件，包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio. 我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式（例如wav 转MP3），质量上有损失，那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式（例如Mp3转AAC）更槽糕，因为它不仅会引入原文件存在的损失，而且第2次编码也会有损失。二、语音(Voice)编码和音频(Audio)编码语音编码主要是针对语音通信系统中的编码方案，应用在有线或无线通信中；音频编码是针对音乐的编码方案，主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同，另一方面是压缩要求不一样，音乐要求具有高保真度和立体感等要求。音频编码最常见的是MPEG的音频编码。语音的编码技术通常分为三类：波形编码、参量编码和混合编码。其中，波形编码和参量编码是两种基本类型。波形编码是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。解码是其反过程，将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求不太严格的通信中得到应用，而对频率资源相对紧张的移动通信来说，这种编码方式显然不合适。脉冲编码调制（PCM）和增量调制（△M），以及它们的各种改进型自适应增量调制（ADM），自适应差分编码（ADPCM）等，都属于波形编码技术。它们分别在64以及16Kbit/s的速率上，能给出高的编码质量，当速率进一步下降时，其性能会下降较快。

音频基本知识

品味生活的甜蜜，深入解析好时巧克力的价格魅力

引导小宝贝爱上餐桌，解决挑食难题的五步策略

最新文章