摘 要: 新疆是我国最西部的自治区, 其风土地貌、人情风俗均具有独特的多元性。作为历史上重要的交通要道, 新疆诸多城市曾作为商贸之都繁华一时。本文叙述了笔者团队在新疆历时两个月针对新疆传统民歌及木卡姆等作品的采集, 其中使用了全息录音这一较新型的工作方式, 并集中论述了关于其音频形成、处理、解码等方面的技术内容。提供了较清晰便捷的工作流程, 并有所依据的展示了这样一种录音技术与当代流媒体兼容的可行性。处理后的音乐文件, 可清晰地呈现木卡姆等音乐内容在传统空间环境下的原貌。
关键词: 木卡姆; ambisonic VR立体声; 球谐函数; 田野录音;
本文阐述了笔者团队的“寻声西游”项目于2018年在新疆进行的为期两个月关于木卡姆及传统民歌作品采集方案。在本项目中利用了当代较新的全息录音 (Ambisonic) 技术结合非遗艺术内容进行的实践研究。这次“寻声西游”之旅一方面是记录和发掘那些和中国传统音乐有着血缘关系的古老新疆音乐, 另一方面是记录如赛里木湖、戈壁滩、胡杨林等独特声音。除此之外还与当地出色的音乐家们共同完成一系列全新的音乐创作, 使这些正在消失的声音回归到原本的创作动力中去。
维吾尔木卡姆属于木卡姆的其中一种, 是维吾尔族的一种民间古典音乐, 共有十二套曲, 分别是《拉克》《且比亚特》《木夏吾莱克》《恰尔尕》《潘尔尕》《乌孜哈勒》《艾且》《乌夏克》、《巴雅提》、《纳瓦》、《斯尕》、《依拉克》, 故也称为十二木卡姆, 合计170多首歌和70多首器乐曲, 4500行诗, 完整演唱12套曲需要25小时。木卡姆在维吾尔地区广为流传, 不同的地区形成了不同的风格, 如喀什一带的“和田木卡姆”、伊犁一带的“伊犁木卡姆”、哈密一带的“哈密木卡姆”和塔里木戈壁边沿麦盖提县一带的“刀郎木卡姆”。木卡姆音乐的功能大多是在庆祝丰收和庆祝盛大节日上为人助庆, 使用的乐器多为当地乐器, 主要由热瓦普、低音热瓦普、卡龙琴、都塔尔、达普、艾捷克、萨塔尔等组成, 伴有领唱、齐唱, 可多人演奏也可二三人合奏。
2005年, 维吾尔木卡姆被联合国教科文组织列入第三批人类口头和非物质文化遗产。2006年5月20日, 十二木卡姆经国务院批准列入第一批国家级非物质文化遗产名录。经过整理, 有新编的作品推出, 舞台演出有器乐合奏、齐唱、合唱、歌舞等形式。现时在新疆部分学校内有木卡姆课程开设及针对非遗艺术家的演奏研究, 一些木卡姆艺术团也会在国内外进行巡回演出。在这次田野录音中, 团队从乌鲁木齐出发, 历经伊犁县—库车县—尉犁县—喀什地区—莎车县—叶城县—巴音郭楞自治州—吐鲁番—托克逊县—鄯善县—乌鲁木齐, 以中部至西部边境南下为木卡姆各风格及发源地的采集线索进行约20组, 近100名艺人的乐器采样及作品采集。由于场地的多变性及录制条件的限制, 在采集过程中使用了两种系统搭建方式。分别是以Ambeo传声器搭配Sounddevice Mixpre6、Sennheiser解码器以及ZOOM H2n的Spatial模式搭配Harpex解码器。为便于制品的传播和推广, 其中田野录音类录制主要采用了ZOOM H2n录音机进行Spatial多声道拾音。为针对于下行双耳听觉的双声道文件以匹配VR及网络流媒体传播, 本文主要基于叙述以H2n录制所获得的声音信号、解码过程及所需面对的问题。
在这次采集的对象整理中, 演奏员编制有个人弹唱、二重奏、三重奏、四重奏和小乐团合奏 (6—9人) 。场地分类大致有果园戏台、家庭客厅、露天舞台、餐厅等。由于编制的多样性并且录音环境相对随机且会有随机外界噪音干扰, 在这个项目的实现过程中团队主要考虑针对该风格究竟以取样式录音工作逻辑针对逐个乐器和人声进行采集或以同期录音的方式客观记录作品片段在当下的空间信息比例进行如实记录。在与艺人交流的过程中我们了解到, 大部分艺人在演奏或演唱时往往会对周边环境、听众、乐器的状态及自身的想法进行观察, 并选择适合当下氛围的唱腔、音调及“调门”, 甚至拒绝演唱。这种“再创作”的思考使我们意识到当地的音乐特点极有可能与外界环境紧密联系, 所以在对作品进行录制的时候团队考虑尽可能将不同的环境声典型化采集。这样的工作方式恰恰是全息录音技术的强项, 能够真实地还原当下该乐器或编制在该空间状态下的声源关系和全部的空间反应。
在传统录音技术发展的道路上, 因为种种原因我们将大多时间和精力花费在了如何呈现一个“面”的概念, 即立体声。我们在这样一种空间设计中, 大编制的木卡姆乐团将通过对动态、饱和度的关系认知, 来从录音到后期处理进行空间定位的设计。所以立体声话筒的主要工作目的是为了造成听感上的空间结像, 但这一空间的“形状”是平面的。也就是说, 当回放时, 空间中的所有扬声器均将呈平面布局回放信号源 (无论是环绕声信号还是立体声信号回放) 。这样一种设计与实际空间中的单位长、宽、高相比是略有缺失的。对于高度信号 (垂直轴) 来说, 在空间声学理论中, 若某乐器的高度有所变化, 其在空间中所收到的顶、地及后期反射的关系将完全改变空间相位及与乐器直达声在这一空间中的干湿比。在木卡姆乐团的乐器演奏中, 达普 (手鼓) 的高度高举至于头齐平, 其余的拉奏、拨奏乐器揽怀演奏, 扬琴和卡龙琴用支架支撑, 每个乐器除了平面声向外均产生了一定的高度差。所以在全息声录音技术中, 传统针对点状拾音的方式不复存在, 将更完整的记录了三维轴向上的声源相位关系。
全息录音制式中目前已知的较完善的系统分为A-Format和B-Format两种。其中A-Format来自立体声理论, 而它将立体声在单一维度的录音方式通过小型矩阵的方式将一个水平面的ORTF (或通过改变交角形成其他的制式类型) 变成两个对立水平面。这样通过对L、R、SL、SR四只指向话筒的开角设定, 我们得到了一下这种类型的例子:LR (110度) ;SLSR (110度) ;LSR (110度) ;RSL (110度) 。则针对于全部空间的四个立体声面1结合在一起通过解码的方式得到这种能够向下解码的声信号2。在这样一种解码过程中, 最重要的垂直纵轴信号被通过上述的四个立体声平面解码得出, 以完成对全息声的高度空间回放。另一种, B-Format是一个无指向信号和三个轴朝向信号构成的信号阵列。它相当于一个无指向传声器 (Omni-directional) 和三个8型指向传声器构成 (WXYZ) 。也就是说, 全息声中不管录音用何种制式的传感器, 如果想要得出纵轴声音, 都要被解码到B-Format。而B-Format的意义不仅于此, 它最大的意义在于可以通过运算来得到任意方向应该被听到的声音。换句话说, B-Format记录可以解码任意数量的拾音器指向任意方向, 其中每一个全向拾音器的模式都可以选择 (心形, 超心形, 8字形, 或者介于两者之间的任何制式) , 这样的方式我们称之为高阶制式 (HOA) 。
在实地录音的过程中, 户外的天气多变、野外环境复杂, 为了使用H2n这样一种“高生存能力”的录音机作为B-Format格式的录音载体, 我们需要深入了解其工作原理及切换工作方式的路径以适合我们的采集对象。按照H2n的说明书, 它本身原理应该是很简单的。会由上部指向性控制来切换线路实现多种不同指向搭配, 从而得到对应的录音制式。它的正面振膜是MS制式、背面振膜是LR制式。在其解码时, 如MS与LR的转换原理就是L=M+S, R=M-S (减号指的是反向相位加和) 。换句话说, 如果我们录了MS立体声道, 将可以通过把两个声道“混”在一起播成一个单声道得到双声道声音的左声道, 把S声道反向和M声道混音成一个单声道得到右声道。这个过程通过解码器, 利用与来去制式相对的算式来处理完成立体声解码的过程。
但解码不是万能的, 由于本项目的目标是进行声音信号的全息采集, 我们没有办法把双声道录音变成正确的四声道录音, 也没有办法把四声道完美的解码成环绕声。所以ZOOM公司在2016年对H2n在1.7到2.0中做了一次升级—在设置中可以选择spatial模式来录制。spatial模式, 是在原有的四声道基础上“牺牲”了一轨, 使其中一轨成为无指向性, 这样一来, 录制的声音信号通过录音设备被编码为四个音轨, 三个有声音轨与一个空白轨道。分别是Channel 0:Omnidirectional sphere、Channel 1:Left-Right dipole、Channel 2:Up-Down dipole (空白轨道) 、Channel 3:Front-Back dipole。当我们对H2n进行拆解后, 可看到振膜的搁置具备一定的高度差, 所以当解码后, Channel2的信号将通过四个振膜的信号关系生成一定的电平。通过下述解码方式组成全息声之后得出的声场更加还原客观性, 还原了田野录音的空间所属关系, 如同身临其境。我们将音频文件拆分成上述的四个轨道导入进音频工作站平台中。按照Chanel1234排列, 将panning调整到信号源在实际录制中的相应位置, 挪动panning的方位后我们会发现, 此时panning表上的方位代表的并不是实际的听觉方位。因为在HOA系统下每一轨声音信号的发声源不再是来源于某一个点方位, 而是一个面状的“场”。我们挪动panning的方位在实际声向中显示的并不是某一个点在坐标轴上的移动, 而是整个面在坐标轴上的移动。所以此时的panning比起用方位的解释, 改用通道解释更为恰当。把panning的四个点坐标理解为分别对应B-Format输入通道中的wxyz四个坐标轴, 将其一一对应到四个方向的波形。这样在声景图中的位置便能还原了。所以, 在harpex中只有w轴持有无指向信号才是对应通道, 这样在最后才能得到正确的结果。相对的, 将其他四个通道一一对应到相应通道, 这样harpex的input通道就设置完成了。得到的声景图与录制时的实际场景将完全对应。声源较集中位置在该声场约左20度左右, 分散频段围绕声源位置较均匀共振并扩散。后方160度左右有部分强反射信号, 其余区域均可见少许回声信号。坐标轴中心为传声器设定位置, 附近无障碍物或反射信号。Z轴具有轻微的高度信号, 从主观听觉上能够感受乐器相比之传声器 (平均人耳高度) 的高度关系。
为了使这次采集的木卡姆等新疆传统音乐形式, 以切合当代AR、VR等前沿科技的发展, 我们针对其声场进行了B-Format的分析。经过计算, 当B-Format的声场信号叠加进去后, 整个空间的墙体工艺、天花结构等富有维吾尔族特色的后方及上方的垂直声场也将带入到录音内容中去。也就是说, 每一个乐器均可以以话筒的高度为垂直参考轴, 针对乐器的相对垂直差进行计算。如, 低于话筒位置约30cm的热瓦普, 在声场左侧80度位置, 并且能够分别出热瓦普的共鸣腔体处于整个乐器的略下方, 而担负弹拨的琴颈和琴弦的拨奏金属声在声场左侧70度位置且略高于共鸣腔体。其原理为, B-Format里面记录的其实就是四个平面上的波。对于四个平面来说, 任意一个时刻的数据除了可以得知其振幅, 还可以得知这个平面的方位列。通过它来做矩阵变换即可以得到两个平面函数 (平面波——一个平面的振幅和方向向量的组合) 。这是非常关键的一步, 它将四个固定方向的“波”变换到两个指定的 (任意) 平面上。之后通过利用HRTF的原理我们需进一步将所得数据代入公式, 以得到对应的双声道信号。
上述内容完成了针对这一次采风中关于木卡姆等新疆传统音乐形式录制内容的解码过程, 但由于考虑多种输出平台 (如CD出版物、播放器APP等) 的可能性, 我们需要加载另外的VR解码方式以获得相比传统立体声更直观、更全面的声音品质。当完成B-Format的解码后, 因为得出的平面波函数没有方位信息, 所以就需要一个声向函数列 (panning function) 来取得正确的双声道信号。HRTF在整个算法中起到的作用就是提供了最后结果的确凿声音方向 (panning) 。为了让戴上耳机或使用立体声音箱的听众能够得到如同上述一般全息化的聆听感受, 选择HRTF来做这一步也是因为想要尽可能还原人头的包络数值与人耳的听力曲线的反射关系。当信号被分解成两个平面波后, 可以对这个平面波函数分阶进行快速傅立叶转换, 将时域转成频域就是HRTF的作用。计算完成之后再乘以HRTF对应的频响, 就得到了相应信号通过耳朵听到的声音的样子。最后再对这个结果进行逆傅立叶变换 (IFFT Inverse Fast Foutier Transform) 就变成了波。
在制作完成的作品中, 我们不仅可以听到来自左右不同方向的乐器完整的声音“样貌”, 还能够清晰地感受那时那地那人的热情与淳朴的生活气息。在声场中扁平化的“立体声”听感不见了, 乐队如同球面般形成了空间的包围感。与传统立体声方式不同的是, 过去的木卡姆混音作品中, 房间的尺寸和形状往往作为有碍乐器频段的内容存在。并且木卡姆音乐中的大部分乐器区间基本维持在中频及中高频, 弹拨乐也会因距离位置和响度造成一定比例上的“冲突”。如传统混音中近似位置的同频段乐器需要在纵深及频段上进行避让。在全息录音信号的多维可能性中, 由于垂直轴向的增加, 木卡姆乐器组的频率问题在空间信号的拾取中形成了该有的定位关系。由于位置的不同, 多面反射声与直达声的比值差影响了乐器的存在感和空间感, 合理地解决了传统录音存在的避让问题。更生动地说, 当下方轻轻地拉奏着带有共鸣弦的萨塔尔时, 又能听到乐手身侧的手鼓在上方轻敲。木卡姆豪迈而奔放的曲调吟唱开来, 犹如带你再次回到了那熟悉的现场。
新疆是我国西北部的自治区, 因为地处边境加上自身的地理因素, 当地文化演变成一种多元文化。从公元前209年至今的两千多年, 新疆结合了多方的文化又不断的和自身的本文化进行融合。曾几何时, 龟兹、疏勒等地作为丝绸之路的重要交通、通商、通文化的世界“十字路口”兴盛一时。通过研究木卡姆我们可以发现在木卡姆中掺杂着阿拉伯语、波斯语、维吾尔语乃至已消亡多年的察合台语, 这些对于研究新疆历史无疑是最好的史料。同时通过对演奏木卡姆的乐器研究我们可以发现如弹拨尔, 是一种长颈的有品鲁特琴, 起源于中亚, 向西演变成乌德琴和琉特琴, 汉代传入中原后逐渐演化成我们今天的琵琶。
2006年5月20日, 十二木卡姆经国务院批准列入第一批国家级非物质文化遗产名录。对于我国非物质文化遗产的保护和传承, 作为国家的一分子我们是有责任和义务去利用自身的知识和技术保护它们。全息录音技术对于还原木卡姆本来的音容样貌是具有覆盖性且“忠实性”的, 是研究者能够在泛人类学、分类学等方面不可多得的重要资料。