国内外视频取证技术进行综述,刑事侦查学论文

　　近年来，随着手机、相机、摄像机这些低廉、便携、操作简单的设备以及影像编辑软件的普及，获取、编辑和传播数字影像越来越简单易行，检材样本真实性鉴定变得越来越困难。在未进行原始性和真实性鉴定的情况下，视频和图像不再被认为“眼见为实”的证据，因此，研究人员致力于研究数字影像取证这一重要的课题。数字图像因在法学、医学、监控等应用领域被大量用于提供客观证据[1],而得到更多的关注和研究，目前数字图像取证技术已经能够对一幅图像是原始图像还是合成图像、图像是否被篡改以及如何篡改等给出鉴定意见。

　　相比于数字图像，数字视频取证的研究较少 ;随着通过篡改视频进行敲诈勒索案件的增多，视频取证变得日益重要[2,3].一方面，所有能用在数字图像上的修改，均能在视频图像序列的单帧图像上应用，以达到从视频所记录场景中隐藏或擦除细节的目的 ;另一方面，数字视频有图像所不具备的时空特性，可以通过删除帧、复制帧和插入帧的方式进行篡改。同时，在实际应用中，视频数据通常经过压缩后进行存储，再加上视频反取证技术的出现，视频取证分析更为困难。先前的综述文献大都集中在图像取证领域，只有少数细节涉及到视频内容取证分析，因此本文对国内外视频取证技术进行综述，介绍数字图像取证技术，从采集、压缩、篡改等方面介绍视频取证技术及其优缺点，并简述了视频反取证。最后对视频取证方法进行总结和展望。

　　1 图像取证技术

　　图像取证在过去几年内得到广泛研究。首先对和视频取证技术背景相通的工作进行介绍，如相机特性、压缩痕迹和几何物理不一致性等。光线通过镜头后，被色彩滤波阵列 CFA 分成相间分布的红绿蓝三色，由 CCD/CMOS 传感器存储像素值，并在机内进行一些后期处理和压缩（见图 1）。有时候，影像经过投影后会被别的相机翻拍，但这个过程通常会存在光照和几何的失真。

　　1.1 相机特性

　　关于图像采集所用相机特性的研究，构成了图像取证的基础，其中研究最多的是 CCD/CMOS 传感器的响应非一致性噪声（PRNU）。PRNU 可用于数字相机种类辨识以及图像完整性检测[4],当图像经过JPEG 压缩后也被证明有效。普通数字相机只有一个传感器，因此在传感器上面放置一个色彩滤波阵列（CFA）然后插值得到其余两个通道的颜色合成彩色图像，检测色彩插值相关性可进行设备模式识别和篡改检测[5].利用合成图像相机镜头色差的不一致实现篡改区域的定位[6].

　　1.2 图像压缩

　　许多图像压缩方法都是有损压缩，这为基于图像编码的取证研究提供了线索。专家因此可以推断一幅图像是否被压缩、是否经过分块处理及估计块尺寸、采用了何种编码方式[7]和采用量化步长的大小等。针对 JPEG 二次压缩，可通过分析 DCT 系数直方图异常来检测。

　　1.3 几何/物理特性不一致

　　场景信息不依赖图像底层特征，图像经过强压缩、质量很低也很有效，因此对于图像真实性鉴定来说是一种非常有用的方法。主要包括通过场景光照方向[8]和人眼反射光点不一致、场景中阴影的几何和颜色反常现象[9]及广告牌的透视反常[10]来检测图像合成篡改。

　　1.4 复制粘贴检测

　　为了保护图像版权、制止非法复制，需要检测图像复制和复制粘贴篡改。一些人声称他们的图像是在不同的时间和地点拍摄的，但是，通过检查相应图像特征之间的相似度，就能判断是否是复制图像[11].许多图像复制粘贴检测方法都是基于 SIFT 算法来检测场景中是否存在经过复制粘贴的相同物体[12].

　　2 视频采集取证

　　与弹道指纹取证技术相似，多媒体取证中最早出现的方法之一是图像采集分析，即辨识采集图像的原始设备，主要通过三个层次进行分析 :检材内容由何种设备或技术生成？使用什么品牌的设备得到？具体由哪台设备生成？图像采集设备辨识已得到很多研究，其中一些方法可以为视频源辨识借鉴，但是有关视频的源辨识技术还远没有成熟。

　　2.1 采集设备辨识

　　有关视频采集设备辨识的工作大都是围绕生成检材内容的特定设备展开。Kurosawa 等人首先引入摄录机指纹的问题[13],他们观察到由 CCD 芯片制造工艺所决定的暗电流噪声，会使每个设备生成的视频帧都有不同的固定模式噪声，并给出了一种估计模式噪声的方法。该方法需要数百黑色帧提取噪声，通常难以满足，但仍被认为是视频设备辨识的开创性工作。

　　2.1.1 基于 PRNU 噪声的视频源辨识尽管不是传感器产生的唯一噪声，许多图像设备辨识方法都采用 PRNU 噪声作为特征，因为它有很好的鲁棒性，而且设备制造工艺难以消除这种乘性噪声。Amerini等[14]选择一个恰当的去噪滤波器，通过平滑物体如墙、天空等的一组图像就可以提取出 PRNU,然后计算检材噪声和设备 PRNU 的相关性就可以进行来源判断。van Houten 等[15]深入研究了低质量视频的源辨识问题。他们使用不同摄像机，采用不同的分辨率和比特率录制了一些视频，然后上传到 YouTube 上再下载。由于上传时 YouTube 对视频进行了重编码，视频至少经历了两次压缩。实验表明若能从视频中提取出 PRNU 模板、且在上传时视频画面比例没有变化，那么对低质量视频，基于PRNU 噪声的源辨识仍然有效。

　　2.1.2 基于编解码器辨识的视频源辨识由于视频多以压缩格式存储，而且第一次压缩是由相机的专用编解码器完成。因此，采集设备的辨识问题也可以利用基于编解码器辨识的技术实现（详见第 3 部分）。

　　2.2 视频翻拍合成检测

　　盗版电影和合成视频检测是版权保护亟需解决的一个问题。通过视频重投影检测和基于设备指纹的视频检索技术，可以尝试解决该问题。

　　2.2.1 翻拍检测翻拍就是拍摄显示在显示器上或投影在屏幕上的视频。Wang 和 Farid 采用多视图几何原理[16]检测重投影视频。现实世界的场景是立体的，而翻拍场景则被限制在屏幕的平面上，重投影会导致全局投影内参数矩阵的非零斜。假定首次拍摄时相机没有倾斜，如果估计的内参数矩阵斜度出现明显偏差，说明是重拍视频，其检测准确率达到 88%,只有 0.4% 的虚警率，不过多数实验是在人工设置的环境下开展的，自然场景下的效果还有待实验。

　　Lee 等[17]针对检测图像是否是翻拍的隔行扫描视频进行研究。隔行扫描视频相邻时间点的扫描线分别记录在相邻两场中，将相邻时间点的两场合成到一起得到全分辨率帧。如果一段视频中包含快速运动对象，或者是录像机快速移动，就会引入梳束失真。作者利用梳束失真的方向特性，从小波变换子带以及垂直、水平差分直方图中提取了 6 个判别特征然后进行分类，实验结果表明该方法平均准确率达到97%以上。

　　2.2.2 合成检测常见的视频合成检测方法是基于视频内容提取特征进行检测。不过 Bayram 等[18]指出这些方法对相似但并非彼此复制的视频辨识效果不好，比如不同人拍摄的同一场景的两段视频。因此他们提出使用从视频中提出的设备特征进行合成检测，具体来说就是提取生成视频的录像机的 PRNU指纹进行加权平均。对于模糊、丢帧、对比度增强、亮度调节、加字幕、压缩等常规处理，该方法也有较强的鲁棒性，但是文章没有提到的旋转和缩放，很可能是破坏了 PRNU 指纹。实验结果表明检测 YouTube视频的准确率达到 96%,虚警率也只有 5%.

　　3 视频压缩取证

　　视频内容大都经过有损压缩，这就留下了可供取证分析的压缩特征指纹，研究压缩一段视频所采用的编码解码器，对于辨识采集设备、揭示可能采取的篡改操作有着重要作用。已有视频编码框架大都基于为图像设计的编码工具，比如目前应用广泛的 JPEG 图像压缩标准的许多原理就用于视频压缩。JPEG 编解码器将彩色图像转化到一个合适的色彩空间，然后独立处理每种色彩成分，主要有以下操作步骤 :

　　（1）将空间域图像按 8×8 分块后使用离散余弦变换（DCT）变换到频率域 ;（2）采用量化步长对 DCT 系数进行量化得到解码器中重建的 DCT 系数 ;（3）采用霍夫曼编码器对量化系数进行无损编码得到二进制比特流。

　　多数视频压缩标准如 MPEG-x、H.26x 继承了JPEG 基于块变换编码的方式，但是视频编码框架中又加入时空预测、环路滤波、图像插值等技术才能完成。

　　图 2 是常见视频编码框架主要步骤的简单示意图。首先，编码器将视频序列分成单帧，并将每帧分成像素块×，每个块又和预测模块P 生成的预测帧（基于时空相关）相减，然后通过与 JPEG 标准相似的步骤对差值进行编码。

　　不可逆的量化过程是信息损失的主要原因，留下的特征指纹依赖于所选择的量化步长和量化策略。

　　因此，可从下面几个方面对基于编码的视频指纹进行分析 :

　　（1）推断编码器细节，如编码标准、编码参数等；（2）无参考视频序列质量评估 ;（3）研究传输视频的信道特征。

　　3.1 视频编码参数检测

　　JPEG 压缩中用户能定义的编码参数只有量化矩阵，而视频压缩中用户可调整的编码参数就有很多，所以辨识编解码器可以考虑的因素更多。利用视频编码参数有助于查明知识产权侵权案件、辨识生成视频的编解码器、不借助原始数据评估视频质量。编码参数检测方法大致可分为检测块效应、估计量化参数、估计运动矢量。

　　3.1.1 块效应检测视频编码框架大都基于分块对帧进行编码，因此块效应便可以用来研究先前的压缩步骤，而识别块边界也有助于估计块尺寸。Fan 等[7]

　　指出可以通过检查局部像素一致性检测是否存在基于块的编码操作，如果块间像素差异的统计特性和同一块内像素的不同，那么就有理由怀疑这是张经过基于块压缩的图像。Li 等[19]在频域中对重建图像进行分析，通过检测与块边界间断相关的亮点、而不是通过分析图像内在特征来估计压缩视频的块尺寸。

　　3.1.2 量化步长检测变换域的量化过程会在 DCT系数直方图中留下痕迹 :DCT 系数直方图变得不再连续，而是呈典型梳状分布，顶点间的间隔就是量化步长。Fan等[7]使用直方图来评估JPEG压缩的质量因子，首先采用直流系数高斯分布和交流系数拉普拉斯分布来近似梳状直方图的包络线，然后将量化系数作为观测值，使用极大似然法估计质量因子。Ye 等[20]提出一种估计量化表元素的方法 :计算得到每个 DCT 系数子带的直方图，对直方图求取二阶导数得到能量谱的周期性，通过分析周期性规律可以提取出每个子带的量化步长。Lin 等[6]通过 DCT 系数直方图中相邻顶点的间距初步估计每个 DCT 子带的量化步长，然后把要估计的量化表看成是数据库中已有量化表的线性组合，来补全量化表中高频系数的缺失元素。在这些已经提出的量化步长估计方法的基础上，未来可能的一条研究思路是通过研究量化参数随时间变化的规律，推断编码端所使用的码率控制算法。这将是辨识编解码器工具生产商的重要线索。

　　3.1.3 运动矢量辨识使用预测器减少时间冗余是视频和图像编码的一个显著区别。视频编码多采用基于块的运动模型，因此通过估计每个块的运动矢量就能得到运动补偿预测器。Valenzise 等[21]研究了如何从解码端估计出编码器所采用的运动矢量，其关键是通过求每个块预测残差 DCT 系数直方图的目标函数的最大值来进行运动估计。多数视频编码参数估计都集中在块效应和量化参数上，但是由于编码操作的多样性以及率失真优化、运动估计等标一些非标准工具的应用，使得辨识这些操作遗留痕迹的取证工作变得更加困难，仍有许多领域等待深入研究。

　　3.2 视频重编码检测

　　只要经过缩放、剪裁、亮度/对比度调节、局部修改、添减帧等编辑，压缩视频就会被再次压缩。研究二次压缩过程有助于篡改检测、源编码器辨识等工作。从码流中提取重压缩前的编码信息比较困难，但能得到最后一次压缩的参数，因此已有研究工作主要借用 JPEG 二次压缩的方法，针对 MPEG 视频二次压缩展开。

　　采用不同的量化步长对已量化的图像 DCT 系数再次量化会对其直方图产生影响，因此多数图像二次压缩检测方法都是基于直方图统计特性进行。He等[22]介绍了二次压缩向直方图中引入特征尖峰的原理，指出尖峰显著与否取决于两次量化步长的关系，提出一种能够自动检测并定位 JPEG 二次压缩区域的方法。

　　Wang 等[23]根据图像组（GOP）是否保持，分两种情况考虑对 MPEG 编码视频二次压缩痕迹的检测问题进行了研究。如果重编码时所有的帧类型不变，压缩后 GOP 保持初次压缩结构不变。由于 I 帧编码原理和 JPEG 压缩相似，若以不同比特率对 I 帧重新编码，I 帧 DCT 系数直方图就和 JPEG 二次压缩形式相同。相反，帧删除或插入操作时 GOP 结构发生改变，I 帧被重编码为其他类型的帧，这会在运动补偿后造成更大的预测残差。对帧差的能量进行傅里叶变换，若出现亮点就说明 GOP 结构发生改变，这就是检测二次压缩的一个线索。

　　Bestagini 等[24]提出一种辨识二次压缩视频初次压缩编码器的有效算法。若采用相同量化表对重编码数据进行二次量化，输出和输入就会有很高的相关性。因此采用不同的编解码器和参数设置对视频序列做第三次重编码，就有可能辨识初次编解码器类型及参数。只要输出输入序列相关性高，就有理由认为这就是初次压缩所采用的编码设置。

　　3.3 网络指纹辨识

　　由于丢包和误码会影响接收比特流，经含噪信道传播的视频编码数据会丢失或损坏 ;为恢复正确信息、减少信道引起的失真，研究人员提出差错隐藏等算法。这些操作会向视频中引入可推断丢失或错误模式的指纹，从而可以辨识视频传播信道 ;通过分析与误码分布相关的丢包率、误码率、突发性以及其他统计特性，还能够对传输协议、流基础架构进行辨识。

　　网络指纹辨识方法主要有两类 :

第一类采用传输统计特性估计信道失真。Reibman 等[25]提出三种策略计算信道失真进行无参考视频质量监督 :从网络统计特性计算最终视频质量、采用丢包特性估计丢包对视频时空特性的影响、估计误码扩散对视频的影响。Naccari 等[26]提出了一种无参考 PSNR 估计方法，对时空差错隐藏的影响进行评价，其输出值和平均意见值 MOS 有很强的相关性。

　　第二类假定传输过程中视频会被解码，无法利用比特流，可以利用的只有重建像素。Valenzise 等[27]利用重建像素值来判断缺失哪部分视频片段，得到一个和全参考视频均方误差有着很强相关的质量值，并对方法进行扩展，将丢失片段的分布作为空间先验信息使用最大后验概率进行辨识。

　　4 视频篡改取证

　　视频已经广泛应用于安防监视系统，并被认为是比单张图像更有力的证据。但由于出现越来越多的视频编辑工具，视频篡改也变得容易起来。替换、删除、复制视频中的某些帧，或向视频中引入、复制、删除对象，都是一些常用的方法。视频篡改和视频取证都可以按帧内（单帧）和帧间（多帧）进行分类。应用图像取证方法分析单帧图像进行视频取证并不太实用，主要因为 :视频数据复杂，取证分析计算要求高 ;图像取证不能检测帧复制等帧间篡改，无法从时间维度上进行分析。

　　4.1 基于相机特性的篡改检测

　　Hsu 等[29]基于噪声残差的时间相关性进行视频篡改检测。对每帧分块然后估算相邻两帧同一位置上块的噪声残差的时间相关性。如果块经过修补或是从其他地方复制而来，相关性就会降低 ;而相邻复制帧的相关性为 1.文献采用两步检测法来降低方法复杂性 :首先采用粗略阈值对块间相关性进行检测，如果出现较多可疑块，建立噪声残差相关性的高斯混合模型，对参数进行更为精确的估计。但是实验结果并不理想，只能检测出复制粘贴篡改视频中 55% 的块，虚警率为 3.3% ;对帧内修补篡改的检测率为 74%,虚警率也增加到 7% ;若视频经过有损编码，检测效果会随着量化步长增加而急剧下降。

　　Kobaysshi 等[30]利用固定采集设备的噪声特性从视频静态场景中检测可疑的篡改区域，其中重点使用了光子散粒噪声（主要依赖于噪声水平函数 NLF所确定的辐照度），通过检测篡改区域和非篡改区域NLF 的一致性，得到每个像素篡改的可能性。由于无法直接得到像素是否属于篡改区域，所以使用 EM算法同时估计视频 NLF 以及像素篡改可能性。对未压缩的静态视频，可以检测 97% 的篡改区域，而且只有 2.5% 的虚警率。但是对于压缩静态视频，该方法的检测性能会迅速降低，这就限制了其在实际中的进一步应用。

　　4.2 基于视频编码痕迹的检测

　　视频编码会严重影响基于相机特性的取证方法有效性，但是编解码本身就会向视频中引入可用于检测篡改的痕迹。最近几年，研究人员通过研究编码痕迹的存在性和不一致性，来判断视频真实性并对篡改区域进行定位。

　　Wang 等[23]提出的检测视频二次压缩的方法同样可以用来检测篡改，接着作者对 MPEG 视频二次压缩进行更精确的表达[30],可以检测 16×16 像素的二次压缩宏块。因此这种方法也能够检测只有部分像素被二次压缩的帧，比如由绿屏抠像技术得到的视频。该方法的性能由两次压缩质量因子的比值决定：比值大于 1.7,检测率能达到 99.4%;小于 1.3 时，检测率就骤减到 2.5%.作者又提出另一种可以检测隔行以及去隔行视频篡改的算法[31].考虑到去隔行视频帧中缺失行的生成方式，未经修改的视频是时空相关场的组合 ;若一个区域被篡改，这种关系就遭到破坏，从而可以检测篡改。作者使用 EM 算法对滤波器参数进行估计，并将像素按原始区域和篡改区域进行划分。对于由奇数场和偶数场合成帧的隔行视频，快速运动的物体会向视频中引入梳束失真 ;由于其强弱取决于场间运动量，场间运动不一致就能揭露篡改。这两种方法都能确定出现篡改的时间位置。由于压缩会减弱像素间相关性，这种方法适合检测中 / 高质量的去隔行视频。

　　以上讨论了一些基于编码痕迹的视频篡改检测方法。但是视频编码算法要比图像 JPEG 压缩算法复杂很多，不容易建立其数学模型，所以通过编码引入痕迹检测篡改有一定困难。但是，这也促使研究人员继续寻找那些对有损编码更加鲁棒的编码痕迹，得到更好的检测效果。

　　4.3 基于视频内容不一致的检测

　　由于逐帧检测视频几何/物理一致性不太现实，已有基于视频内容不一致的方法多使用和运动相关的现象来检测篡改。图像修补是一种通过复制周围纹理自动填充缺失内容的技术，而且视频逐帧修补技术也已取得进展。不过每帧修补区域在时间维度上不连续导致出现“鬼影”效应，张明玉等[32]提出一种基于鬼影痕迹检测修补的方法。他们发现累计差分图像 ADI 可以很好的显示“鬼影”.将参考图像和每一幅后续帧比较，并把每个像素当成计数器，如果差值显著计数器就加一，最终累加次数就是 ADI 像素值。由于 ADI 会同时检测移动物体，作者提出自动判断是鬼影还是运动物体的方法。对一些现实场景视频进行的实验表明该方法对 MPEG 压缩依然鲁棒。

　　Conotter 等[33]提出一种通过空中自由飞行物体三维抛物线轨迹的对应平面二维投影来检测视频中物体运动轨迹异常的算法。首先从视频中提取飞行物体，然后估计出物体三维运动模型，将投影到二维平面的轨迹和合理的轨迹进行比较，如果差异显著，就认为视频经过了篡改。尽管是非常特定的情况，但该方法很好的展示了基于几何/物理特性不一致的篡改检测方法的明显优势，就是检测结果不受压缩和视频质量的影响。

　　4.4 视频复制粘贴检测

　　视频复制粘贴篡改分帧内和帧间两种。帧内复制粘贴篡改是将帧内某个区域复制粘贴到另一区域上，达到掩饰或者复制一些物体的目的，可用图像复制粘贴检测方法检测。帧间复制粘贴篡改是将一些帧用其他帧替换，通常用来去除某段时间内出现在原始视频中的一些物体。Faird 等[34]用分治法，将整个视频分成几个部分，通过计算不同的相关系数得到每部分间的相似程度。实验结果表明，对于固定相机检测精度达到 90% 以上，对于运动相机大约为 80%,而且该方法检测效果不受 MPEG 压缩影响。

　　5 视频反取证策略

　　图像视频取证方法发展的同时，也伴随着隐藏相应篡改痕迹的反取证方法的研究来对抗取证。针对基于相机特性的篡改检测方法，一个很直接的反取证方法是将篡改视频缩放后进行重编码，因为视频缩放要经过插值，噪声痕迹就会消失。Stamm 等[35]采用中值滤波器去除图像块效应，然后通过加入抖动信号重塑 DCT 系数直方图、恢复原始分布来隐藏二次压缩痕迹，使得不能通过查看 DCT 系数分布来检测篡改区域。反取证方法自身也会留下痕迹，Valenzise等[36]对文献[35]引入的失真进行研究，提出了一种有效的检测算法。Stamm 等[37]提出针对视频压缩的反取证方法，可以干扰文献[23]提出的基于运动补偿预测器误码序列检测帧删除的取证方法。

　　本文综述了视频取证技术的最新进展，可以看出视频取证是信号处理领域中一个不断涌现新问题并引领取证潮流的研究热点。尽管一些技术借鉴图像取证中相关方法，但由于视频信号数据量大而复杂、并且视频压缩可能会擦除许多篡改遗留的痕迹，让视频取证面临新的挑战，需要更多研究来解决现实中遇到的难题。

　　参考文献

　　[1]黎智辉，王桂强，许小京，等 . 视频侦查中的影像证据应用[J]. 北京 :刑事技术，2014, （2）： 42-45.

　　[2]许磊，郭晶晶，黎智辉 . 合成不雅视频案件检验 1 例[J].刑事技术，2014, （4）： 13, 17.

　　[3]段成阁，倪萍娅，张国臣，等 . 浅析监控视频鉴定[J].刑事技术，2012, （4）： 42-44, 72.

　　[4]Chen M, Fridrich J, Goljan M, et al. Determining imageorigin and integrity using sensor noise[J]. IEEE Trans.Information Forensics and Security, 2008, 3（1）： 74-90.

　　[5]Popescu A, Farid H. Exposing digital forgeries in color filterarray interpolated images[J]. IEEE Trans. Signal Processing,2005, 53（10） : 3948-3959.

　　[6]Yerushalmy I, Hel-Or H. Digital image forgery detection basedon lens and sensor aberration[J]. Int J Computer Vision, 2001,92（1）： 71-91.