“用社交媒体和博客训练AI，可以吗？”面向企业的指导方针出台

by Kim Bokyung

Published 17 Jul.2024 14:00(KST)

个人信息委发布“公开的个人信息处理指南”
数据收集须符合目的与必要性
建议企业自主落实最优安全措施

一份说明书已经公开，内容是如何在社交媒体、博客等互联网空间中，将公开的个人信息合法、安全地用于人工智能开发。

个人信息保护委员会17日表示，已制定《面向人工智能开发和服务的公开个人信息处理指引》。所谓公开数据，是指互联网上任何人都可以合法访问的数据。这类数据被用作开发ChatGPT等生成式人工智能所需训练数据的关键原料。人工智能企业正通过自动抓取的方式，利用Common Crawl（公开数据仓库）、维基百科、博客、网站等中的公开数据。

但这些公开数据中可能包含地址、电话号码、信用卡号等多种个人信息，隐私侵害忧虑较大。现行《个人信息保护法》（下称保护法）并未对这类公开个人信息的处理设定明确标准。尽管人工智能技术快速发展，但由于尚未制定安全、合法的公开数据学习方案，实务现场经常出现混乱。

为此，个人信息保护委员会明确了公开个人信息收集和利用的法律标准，并制定了一份企业可参考的指引，说明应采取哪些适当的安全措施。此前，委员会与学界、产业界和市民社会等持续沟通，经过意见征集过程后形成了该指引。

指引中明确提出，应当满足三项要件：▲人工智能开发目的的正当性 ▲处理公开个人信息的必要性 ▲具体的利益衡量。例如，如果将公开数据用于以网络攻击、监视、钓鱼、短信诈骗等冒充个人的欺诈行为为目的的人工智能开发，则不符合目的正当性。此外，如果是开发医疗诊断辅助人工智能，与目的无关的个人收入、财产等信息应当被排除在训练数据之外。

指引对为处理公开个人信息而可以考虑采取的技术性、管理性安全保障措施，以及保障信息主体权利的方案进行了说明。

同时，考虑到技术变化迅速等因素，指引也允许灵活引入和实施细化的安全措施。人工智能企业并非必须执行所有安全措施。企业可以综合考虑指引中所列各项安全措施的正向作用，以及对人工智能性能下降、偏见等副作用和技术成熟度的影响，自主选择并落实最适合自身特点的安全措施组合。

指引强调了与训练数据处理相关的人工智能企业和个人信息保护负责人（Chief Privacy Officer，CPO）的角色。建议以CPO为核心，自主组建和运营“人工智能隐私负责组织（暂称）”，并评估是否符合指引所列标准，形成相关依据并予以保存。还要求定期监测人工智能性能改进等重大技术变更以及可能导致个人信息侵害发生的风险因素，并在发生个人信息泄露等侵害事故时，及时制定和落实权利救济方案。

指引今后将根据个人信息相关法律法规修订、人工智能技术发展趋势、海外监管完善动向等持续更新。关于用户个人信息合法处理的依据和标准等内容，将在听取学界、产业界、市民团体等意见的基础上不断细化。