连妈妈都认不出的我的脸,iPhone却识别解锁了 [AI错误笔记]
⑩ 人工智能的“反馈数据风险”
通过反复输入输出进行再学习和校正
恶意使用一再重复时将成危险的人工智能
对苹果iPhone用户来说,脸就是钥匙。由于智能手机正面顶部的摄像头搭载了人脸识别安全技术“Face ID”,从手机解锁到支付、身份认证等所有流程都十分便捷。
当然,首次使用前必须先完成登记用户面部的流程。用户要按照红外摄像头的要求转动面部进行拍摄。只要忍受片刻不便,之后就会变得非常方便。摄像头会测量脸部表面的纹理,以及两眼之间等各种距离。
由于还要经过三维人脸分析和内置神经引擎的分析,识别率非常高。又因为使用红外线,不需要强光,在黑暗环境中也能很好地工作。“iPhone的杀手级功能是Face ID”这句话并不算夸张。
Face ID的威力来自“反馈数据”
不过稍微想一想就会发现,用户的脸每天每时每刻都不一样。
有时会戴眼镜,有时会换镜框;也可能留起胡子,或者改变发型;会戴口罩,有时还会更换化妆方式。每次变化都要重新登记脸部信息吗?并不需要,它依然运作良好。“Face ID是杀手级功能”并非空穴来风。
Face ID会在用户脸部发生细微变化时,捕捉到改变后的模式。尤其是偶尔出现的“识别失败”,是最宝贵的数据。因为系统会在用户输入密码后重新确认脸部,由此获得“这张脸和之前登记的脸是同一个人”的反馈。
随后,内置算法会把新的外貌与此前登记的脸部关联起来,重新学习。几十次、几百次的识别成功与失败,都会成为反馈数据。这些反馈数据积累得越多,Face ID认证成功的概率就越高。
特斯拉自动驾驶事故率下降的原因
即便人工智能模型已经完成了大量训练数据的学习,模型开发也远未结束。产品发布之后,还必须通过反馈数据持续学习。用训练数据(用户第一次的人脸)让模型完成学习,再输入输入数据(现在的脸),就会得到输出结果(认证成功或失败)。系统会不断吸收每一次输出结果,以提升准确度。
情境和环境在不断变化。因此,要保持人工智能模型的准确性,就必须持续提供反馈数据并更新模型。我们日常接触的导航软件、购物应用的商品推荐系统也是同样的道理。
一旦有新道路开通,或者道路堵塞等新数据出现,就必须立即吸收。如果只根据过时数据来规划最优路线,用户就不会再使用这款导航应用。
特斯拉的自动驾驶功能也通过安装在车辆上的8个摄像头接收数据来获得反馈。在既有算法的基础上吸收新信息,从而作出更好的决策。特斯拉车辆的事故率正在逐年下降。如果只依靠最初学习的数据来行驶,这是不可能实现的。
能精准推荐适合自己的商品的购物应用也是如此。仅凭首次注册时输入的年龄、性别、地区、购买记录远远不够。还需要收集变化了的购物模式、频率、时间段等数据。只有这样,才能向消费者提供“量身定制”的推荐。
“女权分子都该下地狱!”——沦为歧视与仇恨鼓吹者的聊天机器人
反馈数据的重要性,在失败案例中体现得更为清晰。
2016年,微软(Microsoft)推出了聊天机器人服务Tay。真正用过的人并不多,因为发布仅16小时后服务就被关闭了。
聊天机器人Tay是一项可以与用户自由对话的服务,可在X(原推特)或消息服务Kik等平台上使用。它通过分析与用户自然对话中产生的文本数据,给出相应的回复。也就是说,它把与人的对话当作反馈数据。对话越多,收集到的数据就越多,对话也就越自然。
然而Tay很快就面临了危险局面。服务公开后不久,口碑迅速传播,白人至上主义者、厌女群体、反穆斯林群体等聚集的匿名在线论坛上,有人发帖提议“把Tay训练成发表歧视言论的机器人”。对话对象不设防的Tay,很快就与这些人“搭上话”。这些人一边说“跟着我说”,一边不断发表歧视和仇恨言论。
短短几小时之内,Tay就变成了种族主义者、性别歧视者和政治极端主义者。这一刻,基于“学习并模仿对话内容”的结构性局限暴露得淋漓尽致。最终,微软不得不中止Tay的运营并公开致歉。
Tay的案例提醒人们,未经过滤的反馈数据潜藏巨大风险。美国IT专业媒体The Verge指出:“(Tay)虽然是利用建模、整理和过滤过的公开数据构建,但聊天机器人发布之后,过滤机制似乎就消失了。”也就是说,系统缺乏区分合适输入(与用户的对话)与不当对话的保护装置。必须迅速识别有害模式,对其进行过滤和策展,防止这类信息被归类为反馈数据。
凭反馈数据一鸣惊人的Netflix
获取反馈数据固然重要,但反馈数据的多样性同样极为关键。Netflix的核心竞争力在于“推荐”。它能推荐与观众口味高度匹配的内容。Netflix获得这种竞争力之前,也经历了不少失败。
曾几何时(2006年至2009年),Netflix举办了名为“Netflix Prize”的数据预测大赛,目的在于改进星级评分系统。星级评分是用户决定是否观看某部内容的关键信息,因此用户的真实期待与评分必须尽量一致。如果系统预测评分为4.5分,用户看完却只打了2.5分,那么该用户今后就不会再信任预测评分了。失去“评分灯塔”的用户,在浩如烟海的内容洪流中无所适从,可能会逐渐远离Netflix。对Netflix而言,这无疑是最糟糕的局面。
要让预测评分与实际评分保持一致,并不容易。有的用户对艺术片评分很慷慨,却对娱乐片格外苛刻;还会严格区分“想看的电影”和“觉得应该看的电影”。他们往往会对在社会或政治上被认为“正确”的电影打出高分。有的人则因为喜欢或讨厌某位演员而给出荒唐的高分,或者进行“评分报复”。仅凭星级评分,很难满足用户的期待。
Netflix开始尝试改变,引入新的反馈指标。平台收集了完播率、持续观看时长、刷剧(binge-watching)、重看、分享、评论等多种数据,并把这些数据与推荐算法相结合。通过学习更多反馈数据,Netflix的推荐系统实现了惊人进化。平均观看时长增加,中途放弃观看的比例下降。随着“推荐内容值得信赖”的用户认知逐渐巩固,推荐内容的点击率也显著提升。
由此可见,反馈数据是决定人工智能模型成败的关键要素。当然,围绕反馈数据的讨论并不止步于此。与反馈数据本身同样重要的,还有“反馈数据的结构”。这一点将在下一篇中继续探讨。
下期预告
⑫“把罢工意向一类的东西都用AI来替代”的想法(2024年1月4日)
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。