录音艺术论文

您当前的位置:学术堂 > 艺术论文 > 录音艺术论文 >

电影录音中人工智能技术的应用研究

来源:现代传播(中国传媒大学学报); 作者:赫铁龙;姚国强
发布于:2020-09-21 共11249字

  摘    要: 随着人工智能与语音识别(Speech Recognition)、计算机作曲(Composing with Computers)以及电影声音创作之间融合度的不断加深,人工智能在电影录音技术制作领域中的应用将为电影声音创作和电影声音美学带来又一次的革命。电影录音技术制作中的对白编辑(Dialogue Editing)、环境声编辑(Ambient Sound Editing)以及音响编辑(Sound Effects Editing)等工作环节的制作效率都将在人工智能技术的支持下得到显着的提升。此外,人工智能的加入将导引电影声音美学发生极大的变革,主要体现在带动电影观众接受审美模式的升级、引发电影声音制作人员创作观念的进化、推动电影声音美学理论的发展等方面。

  关键词: 人工智能; 录音技术; 录音流程; 电影声音创作; 声音美学;

  一、引言:人工智能技术引入电影录音领域

  2016年3月,由世界着名科技公司谷歌(Google)旗下的DeepMind团队开发的“阿尔法”(AlphaGo)围棋机器人以4∶1的总比分战胜韩国围棋世界冠军、职业九段棋手李世石。2017年5月,“阿尔法”围棋机器人在中国乌镇围棋峰会上,再次以3∶0的总分战胜围棋世界排名第一的中国选手柯洁。两次战胜人类围棋世界冠军,让人工智能技术及其自我学习、进化能力得到普遍关注。“阿尔法”围棋机器人的工作原理被称为“深度学习”(Deep Learning)。“深度学习”是“机器学习”(Machine Learning)领域研究中的一个重要研究方向。“机器学习”则是人工智能的核心概念,是使计算机获得智能的途径。“深度学习”是学习样本数据的内在规律和表示层次,这些学习过程中所获得的各类信息对诸如文字、图像和声音等数据的解释具有很大的帮助。因为,“机器学习”的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据;而“深度学习”则是一个更加复杂的机器学习算法,它在语音和图像识别方面所取得的各类成果,已远远超过先前的相关技术。1“阿尔法”围棋机器人的全面胜利预示着这样一个事实,那就是以计算机人工智能为基础的新信息技术时代(新IT时代)的到来。如今,人脸识别、语音识别、地图导航、无人驾驶、智能家居等人工智能技术已然进入人们的日常生活中,并逐渐成为一种无法拒绝的生产及生活方式。

  电影中的声音是构成电影视听语言的重要艺术元素。1927年,美国华纳兄弟公司出品的电影《爵士歌手》(Jazz Singer)的上映标志着有声电影时代的到来。从此,电影从一门纯视觉艺术转变成为一门视与听的综合艺术形式。声音的引入在很大程度上提升了电影的艺术审美表现能力。首先,它使得电影更加真实。无论是对白语言亦或是自然音响的加入,都使观众在观看电影时越发接近于自身的生活感知经验,极大地提升了电影的真实度和可信度。其次,声音丰富了电影的时空特性,使电影增加了一个全新的信息维度。电影从以视觉信息为主导的视觉空间进化成同时兼具视觉及听觉信息的视听空间,最终得以再现真实或梦想生活中的现实或虚拟环境。再次,声音赋予了电影讲述复杂故事的能力,形成了丰富的电影视听语言与视听思维(如画外音、闪回、声画对位等)。同时,声音亦解放了摄影机的运动形态,使得摄影机能够以更加自由、灵活的视角与声音共同进行叙事。所以,不难理解,与视觉语言以及其他种类的语言一样,电影声音也是认识世界、描述世界和理解世界的一种重要方式。

  电影的艺术属性是由其工业属性决定的。在声音进入电影的不到一百年的时间里,电影艺术经历了不断的发展与变化。而电影声音的录音技术制作则经历了由“唱盘发声”到“片上发声”,从“光学”到“磁学”,从“模拟”到“数字”,由“单声道”到“立体声”,再由“多声道环绕声”(Surround Sound)到“空间声”(Space Sound)的不同革命性的发展阶段。但必须指出的是,纵观国内外,电影声音的录音技术制作工艺在数十年的发展过程当中并没有实现质的变化。早期的电影声音是记录在光学和磁性声片上的,对声音的处理需要手动地对光学或磁性声片进行物理上的剪辑和拼贴等工作,这就需要耗费巨大的人力成本和时间成本。而数字化计算机时代到来以后,随着计算机数字音频工作站(DAW)以及计算机非线性编辑技术(NLE)的引入,使传统对磁性声片上的线性剪辑处理工艺得以淘汰,从而进入到了电影声音的数字化计算机非线性编辑时代。这种将声音信号记录在计算机硬盘,通过计算机CPU、内存、DSP(数字信号处理技术)芯片和相关专业音频软件进行运算处理的非线性音频编辑方式,极大地提高了电影录音技术制作的生产效率。这种录音技术制作工艺允许录音制作人员在一个完整的工程序列中的任意位置对声音进行插入、删除、移动、叠加、淡入淡出等声音蒙太奇的艺术处理,使得曾经一个具备熟练操作技巧的录音制作人员几个小时的工作内容,在计算机平台上只要几分钟就可以完成,并且这种处理方式在流程上还是可逆的,只需一个快捷键就能够退回到编辑前的状态,这为电影录音技术制作行业乃至整个电影行业的快速发展和崛起都起到了极大的推动作用。
 

电影录音中人工智能技术的应用研究
 

  然而,直至今天,电影录音技术制作工艺仍然维持着这种从目前的眼光来看已然相当传统和保守的工业生产模式。通过回顾声音的发展历史可以得知,1992年美国电影《蝙蝠侠归来》(Batman Returns)和1993年《侏罗纪公园》(Jurassic Park)的上映标志着电影数字多声道环绕声时代的开启。在此后的一段时间内,形成了以Dolby SR·D(数字频谱录音)、DTS(数字影院系统)以及SDDS(索尼数字动态声音)三种数字多声道环绕声影院还音系统三足鼎立的局面。

  1998年10月23日,美国悬疑惊悚影片《最后的广播》(The Last Broadcast)上映,这部影片是世界影史上第一部从拍摄、剪辑到放映等全流程采用了数字化技术,且影片时长为一部标准故事片长度的影片。该片将电影带入了全面数字化的时代,具有重要的历史里程碑意义。而数字电影的到来犹如一颗重磅炸弹,一夜之间将拥有百年工业历史的传统胶片电影推入到历史发展的滚滚洪流中。曾为全球最大的胶片供应商、世界影像巨头的美国柯达公司也在受到了数字电影冲击后于2012年申请破产保护。电影发行载体的巨变对电影的工业化生产流程带来极大的冲击与改变,各类声画素材经过后期制作完成后会输出一个数字电影发行数据包(DCP,Digital Cinema Package)。DCP作为数字电影制作和发行专门开发的数据包,可经由移动硬盘、光盘、宽带网络等形式输入进数字电影院中的播放服务器,从而对DCP进行解包以放映数字电影。当前的DCP文件在声音技术层面包含有16个声道,全部支持48KHz、24Bit无损数字音频格式,采用PCM方式进行编码和解码。过去,Dolby SR·D、DTS与SDDS之所以能够占据多年的市场份额,其原因主要在于这三种电影声音制式在胶片极其有限的物理空间上找到了用于存储数字声音信息的位置(SR·D是在片孔之间,SDDS是在胶片片边缘,DTS则在胶片上记录了与外部CD同步的TC时码信号),并在空间局限与还音品质之间取得了良好的平衡性。这些数字电影声音的技术应用同样随着全流程数字化电影的到来画上了句号,因为数字电影已不再需要严苛地节省信息存储空间,也不再需要对声音进行各类有损压缩来进行存储和还放。

  2012年,杜比推出具有划时代意义的全景声系统(Atmos,取词自Atmosphere),与之伴随的是基于对象(Object-Based)的电影声音制作理念及工艺。此外,这套全景声系统最多支持高达64个声道(是此前5.1声道的10倍还多),且在影院天花板处增设了专门的顶置声道(Overhead Speakers),用来表现垂直方向的声音。垂直声场的加入以及基于对象声音制作方法的引入,使电影声音从“环绕声”进入“空间声”时代。

  美国影片《地心引力》是世界上第一部使用杜比全景声的真人故事片。该片于2013年上映,并于2014年一举夺得第86届奥斯卡金像奖中的最佳混音(Sound Mixing)与最佳音效剪辑(Sound Editing)两个大奖,囊括了全部的声音类奖项。这部影片借助Atmos系统将电影声音的空间艺术表现力提升到了一个全新的层次。随后,包括德国IOSONO、比利时BARCO以及美国DTS在内的多家电影技术公司纷纷推出自己的多维空间声还音系统。一时间,“临境音”“三维声”“全息声”等各类空间声还音系统硝烟四起、不绝于耳。因此,也有人将基于对象的空间声影院声音系统视作电影声音的第三次革命。

  但是,空间声时代的到来不但没有使电影声音的生产制作工艺流程简化,反而使之更为复杂。由于空间声影院系统的普及率远未到达百分之百,还有相当数量的影院并没有升级到市面上现有的任何一种空间声系统。因此在一部电影的混录制作环节,混录师常常需要先对5.1声音格式进行混录,然后再在其基础上加混成空间声格式(也有混录师直接混录空间声格式,再做其他类型的环绕声混录)。这样的录音技术制作过程无疑会产生更多的制作工作量与更长的制作周期。另外,由于不同的空间声体系涉及迥异的声音编码方式以及扬声器布局及吊装方式,并且对于空间声的升级本身就会带来巨大的设备采购成本投入,因此很少有影院会同时引进几种不同的空间声系统。这就使得电影声音的空间声混录制作和发行格式很难统一,甚至渐行渐远。混录师需要为不同的发行格式制作出不同的声音混底,无形当中进一步增加了工作量、时间和制作成本。此外,除了混录阶段工艺的变化以外,在此之前的包括声音录制、声音编辑处理等工艺流程没有任何不同之处。

  所以说,传统的基于非线性音频编辑的电影录音技术制作工艺流程用现在的眼光来看已经处于其生命周期的末期,尽管这个末期可能还会持续相当长的一段时间。但是真正的问题在于传统的工艺和方法没有结合当下这个时代最新、最先进的生产理念,而后者一定是未来影响全球工业和生产以及人类生活的重要因素。因此,如何将计算机人工智能技术应用于电影录音技术制作领域,已成为本行业亟待讨论的重要命题。

  二、人工智能在影音技术与艺术领域应用前瞻

  1. 人工智能与语音识别

  不可否认,语音识别(Speech Recognition)是人们在日常生活中能够广泛接触、使用场景极其丰富的人工智能技术。无论是文字听写还是聊天机器人,其内部核心技术都是语音识别。语音识别是计算机语言学的一个次级交叉学科(Interdisciplinary Subfield),具有语言学、计算机科学以及电子信息工程等多学科的学科特点及知识结构。

  语音识别作为在21世纪信息技术领域最具发展前景的学科及行业之一,其历史并不算长,只有短短60余年的时间。1952年,美国贝尔实验室的包括斯蒂芬·巴拉谢克(Stephen Balshek)在内的三名研究人员研发出了一款名为“奥德丽”(Audrey)的单扬声器语音识别系统,该系统是世界上第一个能识别出10个英文数字发音的实验系统。此后,来自世界各地的企业和科研机构甚至是军方部门陆续加入到语言识别的科研队伍中来,并在20世纪70年代后取得了技术上的突破性进展。

  根据识别对象的不同,语音识别可分为3类,分别为孤立词识别(Isolated Word Recognition)、关键词识别(Keyword Recognition)和连续语音识别(Continuous Speech Recognition)。显然,连续语音识别是语音识别领域技术攻关的重点和难点,也是这一领域最能产生经济和社会效益的发展前景之一。我国科大讯飞是在人工智能语音识别领域取得丰富成果的企业之一,也是最早把深度神经网络应用于语音识别领域的机构。

  目前,语音识别技术已经在不同的行业中实现了商业化运营,为提高生产力、改善生产效率做出了实质性的贡献。以湖南广播电台为例,其与科大讯飞合作开发的智能音频编辑系统,就在很大程度上改善了新闻采编的流程和效率。该系统上线以来,全年全台共计使用近万次,录音转写时长超过一万小时,语音翻译综合效能比11∶1,结合同步音频文本编辑功能,音频编辑全流程工作效率提高近三倍。2

  2. 人工智能与音乐

  2012年,笔者第一次体验音乐识别软件SoundHound时就被它的功能及高识别成功率留下了深刻印象。6年以后,这家提供免费音乐检索服务的企业已经成为估值超过10亿美元的行业独角兽。实际上,SoundHound这款软件的使用十分简单,启动软件后,用户只需要对着手机进行某一段音乐旋律的哼唱,软件就会自动帮助用户找出这段音乐的歌名、专辑及歌词等信息。

  实际上,SoundHound软件的工作原理是音乐信息检索技术(MIR,Music Information Retrieval)。MIR以音乐声音为基础,基于音频信号处理提取音频特征,后端大量采用AI中的各种机器学习技术。3MIR算法主要对音乐的音高、旋律变化、节奏、和声等信息进行分析,并通过节拍跟踪、速度检测、歌声分离、歌词识别等功能对音乐的内容进行分析并提取特征,最后通过与数据库中的数据进行比对,找出最为相近的信息数据。

  2018年,一家来自法国图卢兹的科技公司Hexachord发布了一款名为Orb Composer的软件,震惊了中外音乐界。这款软件是世界上第一款有着极高完成度的人工智能作曲软件。Orb Composer预制了六种基本模式,分别为钢琴(Piano)、弦乐(Strings)、管弦乐队(Orchestra)、流行/摇滚(Pop/Rock)和氛围(Ambient),可以按照用户设定的配器方案、情绪、强度、速度等参数进行自动作曲。许多音乐界专业人士都对该人工智能作曲软件的作曲能力表示惊讶,因为后者并非是对音符进行简单、随意的拼接处理。随着“深度学习”的不断进化,这种AI作曲软件的创造性是不可限量的。

  3. 人工智能与电影

  早在2016年,美国IBM公司的人工智能系统“沃森”(Watson)就参与到影视制作项目当中,为美国福克斯电影公司制作了悬疑电影《摩根》的预告片。IBM的研究团队将100部恐怖电影预告片中的每个镜头分离出来对沃森进行训练,沃森会对这些预告片进行视觉、音频、场景构成等方面的分析。例如,每个场景都被沃森标记为一种诸如可怕、恐惧和喜悦等情感标签,此外,还会对人物的语调和音乐的响度进行分析,以理解每个不同场景与情绪的关系4。最终,在将《摩根》整部电影输入计算机系统后,沃森在很短的时间内就遴选出了适合作为预告片的场景,并完成了剪辑。

  而工作室分设在洛杉矶和北京的rct studio则开发了专门用于影视编剧的一款名为“摩尔普斯”(Morpheus)5的引擎软件。通过向引擎导入标准文档格式的故事脚本,引擎会自动分析主要情节线,并拉取出主要人物。引擎知晓每个人物所扮演的角色以及他们的目的,并会列出每个角色的行为可能性。每个角色背后都由一个完整的人工智能模型实现运算和支持,引擎还会根据故事背景和人类逻辑将故事发展的可能性进行合理性限制。编剧和导演可以在中途增设新的条件或规则,而事件的结果则会相应改变。当其中一个角色表现了某种行为之后,其他角色在理解这种行为的基础上会做出相应的反应。通过摩尔普斯引擎编写的故事脚本,还可以同时以Unity三维引擎进行动画预演,具有很强的直观性。当越来越多的故事情节输入到摩尔普斯引擎中,引擎也会从中学习到更多的知识,最终会表现得越来越像人类。6

  除了导演和编剧以外,人工智能目前已经广泛运用于动画制作、2D转3D、特效合成等影视制作领域。

  三、AI技术平台下的电影录音技术制作特征探析

  在传统电影声音后期制作工艺中,通常包含有声音编辑(或称声音剪辑)、拟音、ADR录音、声音预混和声音终混等流程。而声音编辑中又细分为对白编辑、音乐编辑、环境声编辑、音响编辑等步骤和流程。在现有的电影录音技术制作流程当中,声音编辑是涉及工作人员数量最多、涉及工作量最大的工艺流程。因此,在声音编辑流程中全面地引入人工智能技术,将在最大程度上提升电影声音制作的效率。

  1. 对白编辑与人工智能

  在以往的对白编辑中,需要通过人工的方式将录音机录制的场记板合板声与摄影机拍摄下来的合板动作在剪辑工程时间线上对齐,以实现声音和画面的同步。进入数字时代以后,专业级的数字电影摄影机和数字录音机都具备了时间码功能,在每次拍摄之前,通过两个机器之间的时间码校准操作,就能够在后期剪辑软件上自动将同一时间码标准的声音和画面素材同步对齐,大大提升了剪辑的效率。当前,常见的流程是,画面剪辑部门完成画面与同期对白的同步,之后将参考画面以及包括同期声音轨的OMF(Open Media Framework)文件或AAF(Advanced Authoring Format)文件转递给声音部门,由声音部门根据画面针对以对白为主要内容的声音分轨文件进行编辑处理。在制作过程中,对白编辑人员主要对声音的内容(如去掉有害声音)、声音的响度、声音的入点及出点、声音的进出方式(如淡入淡出、切入切出)等方面进行制作及处理。这些工作属于基础性声音编辑工作,通常是由对白编辑部门完成。引入人工智能技术以后,计算机通过人脸识别技术对画面内容进行分析,从而判断某一场戏当中有哪几个角色在讲话、不同角色所处的不同银幕位置,以及人物角色处于一个怎样的声学空间(如开放空间还是密闭空间,是卧室还是教堂,等等),最后根据画面中人物的景别和距离,对人物的对白进行自动编辑。除了根据画面内容设置正确合理的对白电平、频率响应、声像位置和运动以及不同环境的空间感以外,还能够对不理想的声音进行纠错处理,例如进行适当的降噪、去除过多的有害混响甚至弥补由于同期录音话筒跟随不及时而造成的指向性话筒离轴声染色效应。

  2. 环境声编辑与人工智能

  环境声编辑也是电影声音制作中的一个重要环节。环境声,或称为自然音响,起到构建银幕空间、增强真实感以及渲染影片氛围等作用。由于同期录音过程中常常存在拍摄现场具有有害噪声、拍摄周期紧张、器材设备种类及数量有限等客观因素,导致出现在同期录音阶段录制的优质环境声素材数量少或质量不高等问题。因此,在以往的环境声编辑中,制作人员通常需要花费大量的时间人为地在环境声素材资料库中检索与画面场景相吻合的声音素材,有时还经常需要将几个不同的环境声素材进行叠加使用,以增强真实感和戏剧性效果。基于内容的声音检索,人工智能技术将从根本上改变这一现状。通过系统的机器学习与训练,例如让计算机“收听”大量的环境声样本,人工智能技术完全可以实现对风声、雨声、虫鸣声、城市街道声等各具特点的环境音响的辨别。而同样基于对画面内容的分析,例如天气情况、所处地理环境、交通拥堵程度等等,人工智能可以自动为特定一场戏选择最优的一条或若干条环境声素材,从而减少人工操作的负担。

  3. 音响编辑与人工智能

  传统的音响编辑主要涉及素材选择、声画同步、电平调节、声像设置、效果处理等几项工作内容,因为音响编辑往往是对声音的细节性处理,因此常常会产生很多的工作量。利用基于画面内容识别以及声音内容识别的人工智能技术,可以解决绝大多数的写实性音响的制作和处理工作。例如,画面上表现的是一个中年人骑自行车摔倒在地的故事情节,人工智能在完成对画面内容的分析以后,可以判断这个角色的性别、年龄、摔倒的原因、摔倒过程的速度、地面的材质、自行车的类型、摔倒后当事人与他人的反应等一系列关键信息,然后通过这些关键信息对音响素材库中的素材进行检索,找出最为合适的声音素材,并根据画面动作将选定的声音素材与画面进行同步对位,并进行响度、频率、位置、空间等方面的处理,最终只需要制作人员对声音进行简单润色即可使用。写意性的音响,例如表现人物主观心理的音响,则需要更高级别的人工智能技术加以实现。由于写意性音响或称表现性音响涉及制作人员对声音的高层次创作,具有很强的主观性与随意性,而这一特点是现阶段的人工智能技术所无法企及的,因为这涉及对人类思维方式的模仿。此外,对声音进行主观创作过程中所体现出的主观性与制作人员的成长背景、受教育水平、生活及工作经验、哲学观念等方面有着很强的相关性和特殊性,这与目前基于计算机编程的人工智能技术的高度准确性与科学性是两种截然不同的信息处理方式。

  四、人工智能导引的电影声音美学转向

  电影声音美学与电影录音技术的发展一直呈现出一种精确而复杂的互动性关系。有声电影诞生于无声电影出现的30年后,在这30年里,无声片已经形成了一套完整的视觉表意系统及电影语言。有声电影诞生之初,由于当时的录音设备无论在频响、信噪比、动态范围、声道数量等方面都尚不具备较好的表现力,因此,彼时的电影声音美学以自然主义为主要诉求,即首先考虑的是如何让观众能够听清从扬声器中传出的声响。在随后的几十年时间里,随着更加优异的声音记录与还原技术的不断推出,电影声音的清晰度、可懂度得以迅速提升,因此,在满足了声音的高保真度的记录和还原的基础上,电影声音美学从自然主义向表现主义转向,从而使电影声音创作成为一门艺术。

  2012年,以杜比全景声为首的空间声电影还音系统为电影声音美学的进一步发展打开了一扇窗户,它凭借基于对象的声音制作模式以及新增设的顶置扬声器从而将影院声音从二维提升到三维,在为观众提供更具真实感与沉浸感的观影体验的同时,亦改变了电影声音制作者们的创作观念,使他们从更高的维度上考虑电影声音创作的可能性问题。

  当前,电影声音美学正处于一个生机勃勃、蓄势待发的快速发展期。在下一个阶段,随着人工智能技术的不断迭代和更新,势必会对电影声音美学带来影响。从目前的眼光来看,这种影响将突出体现在如下三个方面。

  1. 人工智能带动电影观众接受审美模式升级

  1924年,美国西方电气公司(Western Electric)旗下的贝尔实验室推出了名为“维他风”(Vitaphone)的电影同步录音系统,将声音记录在一张由虫胶制成的直径为16英寸、每分钟转动331/3圈的唱片上,首次实现了对电影声音的记录,并通过一个单独的扬声器对声音进行还原。1931年,作为电影观众的英国EMI唱片公司工程师艾伦·布吕姆莱因(Alan Blumlein)不满于电影只有一个喇叭发声,因此,在经过研究与创新后发明了双声道立体声,并申请了专利。为了进一步塑造更为真实可信的声音空间效果,从双声道立体声向多声道环绕声的演进具有历史必然性。美国电影企业家华尔特·迪士尼从20世纪30年代早期开始研制多声道技术,并于1940年随着《幻想曲》(Fantasia)的上映推出了具备三个声道的幻想声(Fantasound)声音系统。20世纪50年代以后,多声道环绕声系统进入快速发展期,多家厂商陆续推出了自己的环绕声系统;70年代以来,逐渐形成了以5.1声道(5个全频段声道+1个超低音声道)为主要形态的多声道影院声音系统。

  数字多声道环绕声系统为观众在观影时带来了前所未有的来自声音上的震撼体验,在营造逼真听觉效果的同时极大地提升了电影声音的艺术表现力。而人工智能作为下一代的技术革命,无疑将再一次推动电影观众接受审美模式的升级和跃迁。此前,电影录音技术制作全部由人工的方式完成,而传统电影录音制作工艺流程复杂、涉及人员众多,势必会造成不同制作人员对声音在技术上的处理具有差异性和主观性。而人工智能技术一旦介入电影声音制作环节,将从频率、响度、空间等方面对声音进行标准化的技术检查,并纠正其中的错误和缺陷,使观众能够在影院中收听到保真度、还原度和精确度更高的声音,使电影声音表意模式得以优化。

  2. 人工智能引发电影声音制作人员创作观念进化

  人工智能技术凭借高效率计算机辅助特性,将极大地解放电影录音技术制作的生产力,使电影录音技术制作人员能够将更多有效精力投放于电影声音艺术创作上,从而带来电影声音创作审美观念的变革。

  一个比较理想的模式是使基于深度学习技术的人工智能系统对获得包括奥斯卡金像奖最佳混音与最佳音效剪辑奖、美国电影声音编辑协会(MPSE)奖以及中国电影金鸡奖最佳录音奖等奖项的影片进行文本分析,从声音频率响应、响度、空间性、运动性等指标进行数据量化,从而得出一个不同类型获奖影片的数据模型。根据此数据模型,电影录音制作人员能够对获奖影片的声音特性进行直观、全面的掌握,并将经验运用到未来的电影声音创作实践中,推动创作审美观念的全面进步。

  3. 人工智能推动电影声音美学理论发展

  电影声音美学理论经历了早期时期、经典时期及现代时期三个发展阶段。在早期以及经典电影声音美学理论时期,包括谢尔盖·爱森斯坦、贝拉·巴拉兹、鲁道夫·爱因汉姆等电影理论家都对电影声音的美学及其意义进行过深入的探讨。而进入现代理论时期,以米希尔·希翁、里克·阿尔特曼为代表的电影声音理论家则根据电影声音的现代性呈现对电影声音美学进行了重新的、更能够适应当今时代特征的思考,将电影声音美学研究从声音的物理属性研究与心理属性研究提升到听觉文化研究的范畴。

  人工智能时代的电影声音美学研究的格局将被改写,其理论研究的版图将被重新划分。通过人工智能制作出来的电影声音文本,虽然其面向的对象仍是人类观众,但是产生方式已经由人类制作者变为电子生成,这种传播学视域下信息生产者的更迭将对电影声音的生产和传播模型及其伦理带来深刻的变化和影响。可以想象的终极形态甚至是作为接受者的观众也会部分地人工智能化,作为观众的人工智能将如何聆听电影声音、将如何观看电影将是一个未来值得深入探讨的话题。

  五、人工智能在电影录音技术制作中的应用性、局限性与可能性讨论

  鉴于现有科学技术的发展水平,在当前以及接下来的一段时间内,人工智能技术在电影录音技术制作中的作用主要是以替代人工的方式从事电影声音制作流程中的基础性工作,以提升电影录音技术制作的工作效率。此外,人工智能还应能够从事对音频素材进行简单拼贴、组合等初级创造性工作,而具有高级审美特性的创意性工作如声音设计与混录是目前这个阶段的人工智能技术无法实现的。提升人工智能在电影声音制作领域的应用性及普及性的一个关键之处在于要让人工智能理解电影中的声音,而这需要两个基本的过程才能得以实现。

  第一,人工智能需要对声音具有完全技术指标分析的能力,也就是说,人工智能要在能够识别声音的频率、振幅、方位、空间等基本信息的基础之上,通过分析声音的频谱构成(包括基频、谐频)以及发声方式(如ADSR形态7)从而对声音的音色或类别进行判断,以此实现基于内容的对自然音响(尤其是频响特征和节拍特征无明显规律性)的识别功能。一旦人工智能能够识别声音的内容,就可以实现大规模的基于声画结合的声音处理。

  第二,人工智能需要掌握基本的电影录音技术制作规律。电影录音技术制作是基于制作人员对电影声音的分类、构成、功能、技术手段、表现形式等多方面的认知与理解从而对电影中的声音进行主观能动性处理的一种行为,而更高层次的声音制作例如声音设计,则更需要进行系统及长期的训练才能够获得具有较高水准的制作观念及制作水平。人工智能首先需要了解和掌握电影声音制作的规律,例如电影中的角色语言在不同情境下的响度浮动范围、战争场面中枪炮等武器的音色及频响特点、原始森林中听觉环境的声音元素构成等,若要获得以上案例中的功能,需要让人工智能对大量的影片进行画面和声音上的分析,并按照类型片的模式分别归纳出不同影片在声音制作上的整体及细节特征。

  最后,在理解电影声音的客观性的基础上尝试理解电影声音的主观性。电影声音的主观性是自有声电影诞生的近百年来最具艺术魅力的特征,也创造了无数经典而美妙的电影声音艺术形象,成为了人类共同的文明宝藏。电影声音的主观性包括两个方面的内容,第一部分是电影声音制作人员在进行声音艺术创作的过程中根据自身的认识与经验所施加的主观性;第二部分是观众作为接受客体在观看电影并聆听经由声音制作人员设计和创作的声音时所表现出的主观性,正是这两方面的主观性的结合,才使得电影声音产生了永恒的审美意义。人工智能技术作为电影声音的制作者和生产者,通过技术上的升级和强化,在进行电影录音技术制作时试图用数字的方式还原人类在创作表现性声音或进行声音设计时的思维过程,这样就能在更大程度上实现从制作到创作的跨越。

  注释

  1陈先昌:《基于卷积神经网络的“深度学习”算法与应用研究》,浙江工商大学硕士学位论文,2014年,第1页。
  2王涓、唐炜、向军:《智能音频编辑系统在广播电台的虚拟化部署和应用》,《电声技术》,2019年第7期,第77—80页。
  3李伟、高智辉:《音乐信息检索技术:音乐与人工智能的融合》,《艺术探索》,2018年第5期,第112页。
  4材料来源:《Watson要进军好莱坞了?!它为《Morgan》制作了第一部认知电影预告片!》,http://www. sohu. com/a/121865183_320672,2016年12月7日。
  5摩尔普斯(希腊语:Μορφα)是希腊神话中的梦神,他能够在人的梦中化成不同人的形象。
  6材料来源:The Key Technology Behind Morpheus Engine,http://sgk.hztsg.com:8081/rwt/ZGZW/https/PJSYILLUPS4XI4LQFG/ com/,2019年12月29日。
  7声音从产生到消逝,包括了“建立”(Attack)、“衰减”(Decay)、“延音”(Sustain)和“释放”(Release)等四个阶段。

作者单位:上海大学上海电影学院 北京电影学院
原文出处:赫铁龙,姚国强.人工智能技术与电影录音技术变革及其美学意义探赜[J].现代传播(中国传媒大学学报),2020,42(07):84-89.
相关内容推荐
相关标签:
返回:录音艺术论文