通过面部血流变化识破深度伪造…检测技术“急速追赶”

by Choi Yuri

Published 03 Sep.2024 07:13(KST)

Updated 03 Sep.2024 16:42(KST)

open/close

仍处起步阶段的深度伪造检测技术
缩小与生成技术差距成“课题”

利用人工智能（AI）的深度伪造（Deepfake）技术发展日新月异，但相关检测技术却被指明显落后。业内评价称，随着技术愈发精细，即便运用现有检测技术，10个深度伪造案例中有2个也很难被识别。由于深度伪造技术快速演进，如何缩小与检测技术之间的差距已成为一大课题。

深度伪造检测率约80%……其余成“漏洞”

据3日信息技术（IT）业界介绍，目前依靠AI可以拦截的深度伪造检测率约为80%。换言之，剩下的20%意味着AI无法检测到。原因在于深度伪造技术的发展速度已经超过检测技术。

这一点也可以从投资规模中得到印证。根据市场调研机构Fortune Business Insights的数据，全球深度伪造市场规模预计将从去年约62.6亿美元（约合8.38万亿韩元）增长至2032年的约384.4亿美元（约合51.43万亿韩元）。分析认为，娱乐、媒体和电子商务领域的需求正在增加。相较之下，深度伪造视频检测市场规模到2030年预计也仅为约73.2亿美元（约合9.8万亿韩元）。这意味着深度伪造本身的需求要大得多。

要检测是否被篡改，必须同时掌握原始数据和被篡改数据，这也是技术差距依然存在的原因之一。此外，在将原始与篡改数据输入AI模型进行学习时，还必须先加工成模型可以理解的形式。简单生成一张深度伪造图像只需1至2分钟，而检测通常则需要约5至10分钟。

不断涌现的新型深度伪造技术同样构成障碍。如果通过“污染”深度伪造图像来增加检测难度，或采用与既有方式不同的新方法生成深度伪造，就必须同步开发应对技术。DeepBrain AI深度学习团队研究员 Ryu Hyeohyun 指出：“深度伪造生成技术和检测技术之间必然存在差距，只有充分获取学习数据，才能哪怕稍微缩小这一鸿沟。”

科学技术信息通信部和信息通信规划评价院（Information and Communications Technology Planning and Evaluation，IITP）正将包括深度伪造在内的生成式AI负面功能应对技术开发，作为国家研究开发（Research and Development，R&D）课题推进。中标的Sands Lab、LG Uplus、FortyTwoMaru等企业计划将检测技术与小型语言模型（small Large Language Model，sLLM）相结合，开发出可用自然语言进行检测和应对的技术，并于2027年前完成。

用AI“抓”AI……检测技术正“追赶中”

基本而言，深度伪造检测技术是向AI模型同时输入原始数据和被篡改数据，让其学习其中的细微差异。以图像合成为例，在原始照片上叠加新的人脸后，脸部轮廓可能会出现扭曲，或产生轻微的色调差异，AI通过学习这类案例来进行识别。微软（Microsoft，MS）的检测工具“Video Authenticator”也是通过分析肉眼无法辨别的帧，在下颌等身体边界部位的模糊程度等细节上判断真伪。

也有技术利用类似血流变化这类更为细致的特征。英特尔（Intel）的深度伪造视频检测技术“FakeCatcher”可以千分之一秒为单位，捕捉视频中人物脸部表面静脉颜色的变化。人类在心脏跳动时，静脉颜色会发生微小变化，而深度伪造视频中不存在这种变化，该技术正是基于这一点进行识别。

DeepBrain AI于今年2月提交了基于深度学习的Deep Voice检测技术专利申请。 [照片由DeepBrain AI提供]

还有一种方法是寻找用于生成深度伪造的AI模型“痕迹”，或分析深度伪造文件中所包含的信息。例如，识别其是否由特定、常被用于深度伪造的软件生成，或寻找标明“由AI生成图像”的“标签”。谷歌DeepMind为防止深度伪造被恶意利用而开发的“DeepMind SynthID”就属于这种标签技术。它通过留下肉眼无法识别的虚拟标记，使得后期编辑或删除这些标记变得困难。

韩国本土企业也在推出检测技术。生成式AI专业企业DeepBrain AI开发出区分AI伪造声音的技术，并以软件即服务（Software as a Service，SaaS）的形式提供。该公司将语音信息提取模型与伪造判别模型进行整合，使其能够提取判别所需的高频段语音信息。以往模型主要集中在低频段语音提取，因此难以发现近期出现的高频调制伪造痕迹。

必读新闻

“又要开始囤货吗” 战争致价格暴涨30%…连卧室都被波及

AI语音专业企业BrainDeck则开发了深度语音解决方案“Iris-5”。这是一项检测语音合成过程中产生的频率损失痕迹的技术。既有检测模型多利用声码器（将人声或音高转换为由电子乐器输出的音高的装置）检测或声学特征。传统模型在应对未知声码器或高度精细的语音转换时存在薄弱环节，而该技术对这些问题进行了改进。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。