[AI 数据枯竭危机]“数据不够就自己造？”…备受关注的合成数据

by Lee Jungyun

Published 26 Jun.2024 07:30(KST)

Updated 26 Jun.2024 08:33(KST)

open/close

AI热潮下数据供给难以满足需求
虚拟生成的合成数据备受关注
性能下降、多样性不足等问题引发质疑

图片由路透社联合新闻提供

随着关于用于人工智能（AI）训练的数据获取将出现瓶颈的预期增多，人为生成的合成数据开始受到关注。利用虚构数据进行AI训练的做法，也引发了可能出现性能下降等负面影响的质疑。

根据韩国数据产业振兴院上月发布的《2023数据产业现状调查报告》，以去年为基准，韩国国内数据产业市场规模同比增长4.6%，达到27万1513亿韩元。2018年市场规模仅为15万5684亿韩元，5年间增加了逾11万5000亿韩元。预计韩国国内数据产业市场今后每年平均将以12.6%的速度增长，到2028年市场规模将逼近51万1413亿韩元。全球市场调研机构360iResearch则预测，用于全球AI模型开发的训练数据集市场规模每年将以逾26%的速度增长。

外界对合成数据的关注，似乎反映出对数据供给难以跟上需求增速的担忧。

合成数据是为AI训练而生成的虚拟数据，大致可分为“部分合成数据”和“完全合成数据”。部分合成数据是指在真实数据中的一部分叠加合成信息的方式生成的数据，有利于保护敏感信息。

完全合成数据则是指生成全新的信息。虽然是虚构数据，但可以具备与真实数据相同的统计属性等，因此能够得出与使用真实数据相近的结论。

支持引入合成数据的一方高度评价其可根据需要“无限”生成数据这一点，并强调合成数据可以向对个人信息极为敏感的金融、医疗等领域提供数据。全球市场调研机构Gartner预测，到2030年，AI训练中使用合成数据的比例将高于真实数据。例如，在自动驾驶模型开发中，合成数据的使用频率正在上升。这是因为真实交通事故数据难以获取，而利用合成数据则可以实现三维（3D）模拟。

韩国AI数据初创企业SelectStar的副代表Hwang Minyoung表示：“通过常规方式可以收集到的数据正逐渐枯竭，因此预计对合成数据的依赖将会不断增加。”

由于是人为生成，外界也对合成数据持负面看法。因为并非真实数据，可能会出现质量问题。如果将设计不当的合成数据用于AI训练，则很可能无法正确反映现实。一旦存在错误的数据被不断扩散并在AI领域中反复使用，不仅会导致性能下降，还可能引发偏差、失真，以及AI模型给出不准确答案的“幻觉”现象。

必读新闻

“月薪150万不如去美国年入5亿” 首尔大·KAIST人才纷纷收拾行囊 [科学家正在消失]①

国际人工智能伦理协会会长、首尔女子大学“正AI研究中心”主任Kim Myungju表示：“有实验结果显示，当下一代AI模型利用由AI生成的合成数据进行训练时，其性能可能比以前更差。”他解释称：“如果使用合成数据的AI模型占据多数意见，社会就可能出现多样性的丧失。”他还补充说：“我们也需要警惕，由于AI的缘故，人类文明可能走向单一化这一问题。”

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。