当你怠倦地躺卧在沙发上,刷着短视频以寻觅点新刺激的时候,广告总是不合时宜地蹦出来,高亢的陈词谰言通过蓝牙耳机不断刺激着你可怜的耳朵。“真受够了!
”一气之下你摘掉了耳机,打开了SACD机,放进去一张DSD重制的肖邦练习曲,随着波利尼温和的触键,你满意地自语:“这才是自然的声音嘛。”
咦?自然的声音?仔细想想,那张CD的承载的音乐旗子暗记,从录制到播放经由的处理步骤,彷佛并不比短视频里音频旗子暗记经由的少;著名指挥指挥切利比达奇也曾说过:“录音好比失落去了原味的青豆罐头。”可为什么“罐头”式音乐录音比同是“罐头”的短视频配音更加活色生喷鼻香、“靠近原味”呢?这就不得不从音频编码和压缩提及了。
常见的数字音频编码格式

事实上,音频编解码不仅在音频文件录制保存上起着重要浸染,还在广播电视的旗子暗记传输中担当着关键角色。完全的旗子暗记调制方法如下图所示[1],该分类按照仿照调制、数字调制、仿照信息、数字信息将音频调制分为了多个种别,在个中可以看到一些基于仿照旗子暗记载体或者基于仿照数据存储的格式,这些格式和广播电视旗子暗记的传输有着密切的关系,在这里我们不对这些含有仿照部分的格式展开。对付数字音频编码,大类上紧张的方法有PCM(包括DPCM)、PDM(常见变体DSD)这两种。
图一:紧张的调制方法列表,作者Michel Bakni
在这两种方法中,PCM无疑是目前最主流的编码办法。平时常见的WAV、MP3、AAC格式都是基于PCM编码衍生而来。PCM编码紧张包括“采样-量化-编码”三个部分,这里采样指的是在韶光上对声音进行离散化抽样,在一秒内记录的韶光点数叫做采样率;量化指的是在幅度上对声音进行离散化抽样,由于打算机一样平常采取二进制编码,以是n位采样深度就对应着2n个声音强度;编码则是利用二进制码保存采样量化后的文件。由于此方法大家都较为熟习,以是在此不展开讲述。
PCM编码有一种变体——DPCM编码(以及自适应的ADPCM),与PCM不同,其记录的是帧与帧之间的差值,是一种“增量编码”,通过增量和当前帧附近的帧来预测当前帧的幅度。可以证明这种方法在一定条件下可以在担保旗子暗记分辨率的同时降落带宽占用。
之后先容一下PDM编码,弁言中的DSD格式音频便是PDM的一种,该方法利用密度分量取代PCM中的幅值数据。PDM方法采取远高于PCM的采样率对音频旗子暗记进行采集,之后仅利用0或1记录数据:即声强越高的地方,编码1的涌现密度越大;反之0涌现的密度越大,措辞上的讲解不足直不雅观。这里利用视觉的“连续调和半色调”进行类比[2]。如图,
图二:灰度图,有不同的灰度等级
图三:半色调图片,只有黑和白两种颜色
可以看出图三虽然仅有黑白两种颜色,但是给人的不雅观感并不比图二灰度图差。这里撤除一些视觉效应的影响(有不止一种创建半色调图片的方法,详细可参考“调频加网”,这里不考虑这种差异),也能帮助我们理解PDM编码格式的有效性,即通过更高的采样频率来填补采样位深的不敷。同时无论是视觉的“半色调”还是音频PDM编码都基于了人类主不雅观感知上的低通特性:人眼具有低通特性,在一定间隔上不雅观察图片会将空间上靠近的一部分视为一个整体;而对付PDM编码而言,低通滤波器就可以作为其一种较大略的D/A解码器。
同时,1bit的高采样率的音频编码还有把噪声“搬移”到高频的特性。为了理解同样举出图像的例子,事实上半色调图片不是通过大略的二值化设置来实现的;而是通过将二值化导致的偏差,分布到相邻的尚未设置阈值的像素之间来提高还原性。这个过程被称为偏差扩散。这种偏差扩散可以把偏差调制到较高的频率,结合刚刚提到的人类对低频感知更加敏感的特性,从而带给人更好的主不雅观感想熏染。可以比拟图三——仅利用二值化的图片和半色调图片的差异理解偏差扩散的效果。
图四:二值化图片,可见含有噪声。
讲完了这两种编码格式,再讲讲这两种编码对应的音频存储格式。基于PCM编码办法的音频格式浩瀚,基本可以涵盖普通用户日常所见的格式,如WAV、MP3、AAC都是基于PCM格式的录音无损保存或者压缩而来;而PDM编码用于音频的紧张格式只有DSD格式,这也便是文章一开始提到的一些高档播放器采取的格式,反应在文件类型上有DFF或者镜像文件。值得一提的是,DSD文件有时候被包装为PCM格式以便于从播放设备传输到DAC设备,这种办法被称作DoP(DSD over PCM)。至于PCM与DSD编码在参数和听感上的利害,Atsushi MARUI[3]等人在2014年的一个研究中揭示了:在统计学背景下,对同样的演奏者同时录音,利用DSD和PCM编码办法录制的音乐在主不雅观听音上有着可闻的差异。
音频的压缩
在大量的利用场景中,传输和处理体积弘大的原始音频都会带来额外的存储和打算开销,这时候压缩算法就要起到浸染了。
所谓的压缩简言之便是根据利用场景,去除冗余的部分,在降落数据量的同时不影响功能性。正如开头的例子,短视频中的音频文件并不须要做到严格的高保真,只须要突出一部分频段(如语音)即可。对付音频来说,压缩算法便是降落被认为超出大多数人听觉能力部分的音频的准确性[4],这个中包括超出人耳听力范围之内频率的部分以及对付人类感知系统来说“无效”的部分。这种方法常日被称为感知编码或者生理声学建模;再此之后再利用MDCT或者FFT算法记录有效的音频信息。
不才半部分中,我们将详细先容压缩算法,请大家期待。
参考文献:
[1]. Wikipedia contributors. (2021, December 17). Modulation. In Wikipedia, The Free Encyclopedia. Retrieved 01:15, December 29, 2021, from https://en.wikipedia.org/w/index.php?title=Modulation&oldid=1060786138
[2]. Thomas Kite, Ph.D. Understanding PDM Digital Audio
[3]. Marui, A. , Kamekawa, T. , Endo, K. , & Sato, E. . (2014). Subjective evaluation of high resolution recordings in PCM and DSD audio formats. 136th Audio Engineering Society Convention. Audio Engineering Society.
[4]. Perceptual Coding: How Mp3 Compression Works. Retrieved 01:20, December 29, 2021, from http://web.archive.org/web/20150731055521/http://www.soundonsound.com/sos/may00/articles/mp3.htm