⑨ AI的“输入数据风险”
在“停止”交通标志上随手涂鸦
诱导图像识别出错让车辆直行
输入数据出错则结果失去意义

编者按审视失败,是通往成功的捷径。“AI错误笔记”专栏将探讨与人工智能相关的产品和服务、企业及人物的失败案例。
自动驾驶汽车通过感知周围的物体和环境来行驶。其中应用了一种名为“计算机视觉”的技术,使计算机能够像人眼一样对周围环境进行视觉识别。盖蒂图片银行供图

自动驾驶汽车通过感知周围的物体和环境来行驶。其中应用了一种名为“计算机视觉”的技术,使计算机能够像人眼一样对周围环境进行视觉识别。盖蒂图片银行供图

View original image

在人工智能领域所说的数据,大致可以分为训练数据、输入数据和反馈数据三类。上周我们已经讨论了训练数据。本期要谈的主题是第二类:输入数据。


要让完成机器学习的人工智能模型开始运转并输出结果,就必须向其中输入一定的信息。这就好比要发射子弹,必须有扣动扳机的力量。然而,输入数据同样会像训练数据一样,如果处理不当,就可能导致严重错误,甚至酿成致命后果。


一张贴纸的危险:自动驾驶汽车
据称,图像识别系统以73.3%的概率将上方标志识别为限速45公里。华盛顿大学研究资料供图

据称,图像识别系统以73.3%的概率将上方标志识别为限速45公里。华盛顿大学研究资料供图

View original image

要让驾驶员陷入危险,并不需要巨大的凶器或工具,一张“小小的贴纸”就可能足够。


2017年,美国华盛顿大学研究团队发布研究结果称,只需在交通标志牌上贴贴纸,就能让自动驾驶汽车发生误操作。研究团队在道路交通标志牌上贴上贴纸,目的就是干扰自动驾驶车辆的图像识别功能。


仅仅是在“STOP(停车)”标志牌上贴上一张写有“LOVE”的贴纸,就已足够。自动驾驶汽车的图像识别算法在这一情况下有100%的“反应率”,把该标志牌识别成“限速”标志,而不是停车标志。


研究团队还对右转标志进行了类似实验,结果也大同小异。超过一半的车辆把右转标志识别为停车标志,堵住了道路。


只需对右转标志进行简单篡改,就可能诱发自动驾驶汽车误操作。华盛顿大学研究资料供图

只需对右转标志进行简单篡改,就可能诱发自动驾驶汽车误操作。华盛顿大学研究资料供图

View original image

除此之外,还有多项类似实验,甚至出现了逆行案例。仅仅通过干扰作为自动驾驶汽车“眼睛”的摄像头传感器所接收的输入数据,就足以让已经完成学习的系统做出完全不同的判断。与以往利用有线、无线网络或终端设备等既有漏洞的攻击方式不同,这种方法利用的是机器学习算法本身所内在的脆弱性。


在无人察觉间危及糖尿病患者性命:胰岛素泵

糖尿病患者需要定期向体内补充胰岛素。过去多靠自行注射,如今则可以通过名为“胰岛素泵”的医疗辅助设备更方便地管理。胰岛素泵体积小、便于携带,可以放在口袋或包里。泵与皮肤下的一根细小导管相连,实时掌握患者血糖和健康状况,并自动供应胰岛素。据称,这不仅比一天多次自行注射方便得多,对血糖控制也非常有效。


胰岛素泵是基于“如何根据糖尿病患者的状况计算并供应适量胰岛素”这一规则完成了学习的。那么,实时监测到的患者血糖和健康状况就是输入数据。根据已学习的数据,当患者达到某种状态时,设备就会自动供应胰岛素。


糖尿病是由于胰岛素分泌不足或功能异常引发的疾病。患者可能需要通过外源性注射胰岛素进行治疗。Getty Images供图

糖尿病是由于胰岛素分泌不足或功能异常引发的疾病。患者可能需要通过外源性注射胰岛素进行治疗。Getty Images供图

View original image

如此方便的胰岛素泵,一旦输入数据遭到污染,却可能引发致命后果。全球知名安全企业迈克菲(McAfee)的研究团队在2019年公开了他们发现的胰岛素泵严重安全漏洞。


患者的血糖和健康数据通过蓝牙进行传输,问题在于其中并未进行充分的加密。这意味着恶意黑客可以操纵胰岛素泵的供给量。如果黑客篡改患者的血糖和健康数据,胰岛素泵就会供应过多或过少的胰岛素,其后果可谓名副其实的“致命”。据研究团队介绍,即使在约90米之外,也能对胰岛素泵进行远程操控。


这些案例表明,在人工智能系统中,输入数据管理有多么重要。输入数据是算法用于实时做出决策的信息来源。一旦这些数据被破坏或遭到篡改,人工智能的输出和结果值就完全不值得信任。正如糖尿病患者和驾驶员的例子所示,人类生命甚至可能因此受到威胁。


要预防因输入数据而产生的风险和失败,就需要构建强有力的数据验证系统。可以在系统中嵌入异常检测算法,自动补正异常值和缺失值。比如,当患者体温超过40摄氏度时,将其视为可能出错的信号,触发其他预警系统。


无法访问输入数据,就谈不上人工智能发展
已经完成的算法只有在接收到“输入数据”后,才会给出输出数据。从这个角度看,输入数据起到了一种扳机的作用。Getty Image Bank供图

已经完成的算法只有在接收到“输入数据”后,才会给出输出数据。从这个角度看,输入数据起到了一种扳机的作用。Getty Image Bank供图

View original image

随着技术发展,由输入数据被篡改而引发的风险和被黑客攻击的风险在一定程度上有所缓解。在有关输入数据的讨论中,绝不能忽视的关键词是“可访问性”。


要让算法有效运作,获取高质量的输入数据同样至关重要。在某些医疗领域,利用人工智能的诊断服务已经开发完成,其中有些服务的疾病诊断准确率很高,还能推荐合适的治疗方案。然而,“对输入数据的可访问性”却在阻碍这些服务走向成功。


例如,如果以“违反个人信息保护”为由,禁止收集患者个人的糖尿病相关信息,那么胰岛素泵设备就无法发挥其应有功能。麻省理工学院2019年的研究结果也指出,“由于对患者数据的可访问性较低,医疗人工智能应用的开发可能会受到严重阻碍”。研究强调,如果缺乏足够的输入数据,人工智能就无法给出可信的预测,也难以输出具有意义的结果。



当然,这绝不能被解读为“个人信息保护根本没必要”之类的主张。个人信息保护与人工智能发展同等重要,甚至更为重要。在个人信息保护与数据可访问性之间寻找平衡,本身就是另一项重要课题。

下期预告
⑩连妈妈都认不出的我的脸,iPhone却能识别(12月22日)
⑪Bing为何始终无法超越Google(12月28日)


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。