仍处起步阶段的深度伪造检测技术
缩小与生成技术差距成“课题”

通过面部血流变化识破深度伪造…检测技术“急速追赶” View original image

利用人工智能(AI)的深度伪造(Deepfake)技术发展日新月异,但相关检测技术却被指明显落后。业内评价称,随着技术愈发精细,即便运用现有检测技术,10个深度伪造案例中有2个也很难被识别。由于深度伪造技术快速演进,如何缩小与检测技术之间的差距已成为一大课题。


深度伪造检测率约80%……其余成“漏洞”

据3日信息技术(IT)业界介绍,目前依靠AI可以拦截的深度伪造检测率约为80%。换言之,剩下的20%意味着AI无法检测到。原因在于深度伪造技术的发展速度已经超过检测技术。

通过面部血流变化识破深度伪造…检测技术“急速追赶” View original image

这一点也可以从投资规模中得到印证。根据市场调研机构Fortune Business Insights的数据,全球深度伪造市场规模预计将从去年约62.6亿美元(约合8.38万亿韩元)增长至2032年的约384.4亿美元(约合51.43万亿韩元)。分析认为,娱乐、媒体和电子商务领域的需求正在增加。相较之下,深度伪造视频检测市场规模到2030年预计也仅为约73.2亿美元(约合9.8万亿韩元)。这意味着深度伪造本身的需求要大得多。


要检测是否被篡改,必须同时掌握原始数据和被篡改数据,这也是技术差距依然存在的原因之一。此外,在将原始与篡改数据输入AI模型进行学习时,还必须先加工成模型可以理解的形式。简单生成一张深度伪造图像只需1至2分钟,而检测通常则需要约5至10分钟。


不断涌现的新型深度伪造技术同样构成障碍。如果通过“污染”深度伪造图像来增加检测难度,或采用与既有方式不同的新方法生成深度伪造,就必须同步开发应对技术。DeepBrain AI深度学习团队研究员 Ryu Hyeohyun 指出:“深度伪造生成技术和检测技术之间必然存在差距,只有充分获取学习数据,才能哪怕稍微缩小这一鸿沟。”


科学技术信息通信部和信息通信规划评价院(Information and Communications Technology Planning and Evaluation,IITP)正将包括深度伪造在内的生成式AI负面功能应对技术开发,作为国家研究开发(Research and Development,R&D)课题推进。中标的Sands Lab、LG Uplus、FortyTwoMaru等企业计划将检测技术与小型语言模型(small Large Language Model,sLLM)相结合,开发出可用自然语言进行检测和应对的技术,并于2027年前完成。


用AI“抓”AI……检测技术正“追赶中”

基本而言,深度伪造检测技术是向AI模型同时输入原始数据和被篡改数据,让其学习其中的细微差异。以图像合成为例,在原始照片上叠加新的人脸后,脸部轮廓可能会出现扭曲,或产生轻微的色调差异,AI通过学习这类案例来进行识别。微软(Microsoft,MS)的检测工具“Video Authenticator”也是通过分析肉眼无法辨别的帧,在下颌等身体边界部位的模糊程度等细节上判断真伪。


也有技术利用类似血流变化这类更为细致的特征。英特尔(Intel)的深度伪造视频检测技术“FakeCatcher”可以千分之一秒为单位,捕捉视频中人物脸部表面静脉颜色的变化。人类在心脏跳动时,静脉颜色会发生微小变化,而深度伪造视频中不存在这种变化,该技术正是基于这一点进行识别。

DeepBrain AI于今年2月提交了基于深度学习的Deep Voice检测技术专利申请。 [照片由DeepBrain AI提供]

DeepBrain AI于今年2月提交了基于深度学习的Deep Voice检测技术专利申请。 [照片由DeepBrain AI提供]

View original image

还有一种方法是寻找用于生成深度伪造的AI模型“痕迹”,或分析深度伪造文件中所包含的信息。例如,识别其是否由特定、常被用于深度伪造的软件生成,或寻找标明“由AI生成图像”的“标签”。谷歌DeepMind为防止深度伪造被恶意利用而开发的“DeepMind SynthID”就属于这种标签技术。它通过留下肉眼无法识别的虚拟标记,使得后期编辑或删除这些标记变得困难。


韩国本土企业也在推出检测技术。生成式AI专业企业DeepBrain AI开发出区分AI伪造声音的技术,并以软件即服务(Software as a Service,SaaS)的形式提供。该公司将语音信息提取模型与伪造判别模型进行整合,使其能够提取判别所需的高频段语音信息。以往模型主要集中在低频段语音提取,因此难以发现近期出现的高频调制伪造痕迹。



AI语音专业企业BrainDeck则开发了深度语音解决方案“Iris-5”。这是一项检测语音合成过程中产生的频率损失痕迹的技术。既有检测模型多利用声码器(将人声或音高转换为由电子乐器输出的音高的装置)检测或声学特征。传统模型在应对未知声码器或高度精细的语音转换时存在薄弱环节,而该技术对这些问题进行了改进。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。