[AI数据枯竭危机]“2年后AI增长或将停滞”……数据悬崖拉响警报
AI训练用高质量数据见底
数据成本飙升…企业负担加重
有人转向海外数据甚至动用变通手段
“AI第三次寒冬将至”的担忧加剧
#国内人工智能(AI)企业A公司因缺乏用于训练的韩文数据,不得不购买海外数据。要提供翻译服务,就必须拥有将各国语言转换成韩语的数据,但远远不够。最终只好先购买把印尼语翻译成日语的数据,再将其转成韩语。A公司代表表示:“多次翻译会产生错误,或者难以准确传达语言上的细微差别,但我们别无选择。”
#AI初创企业B公司今年将约40%的投资资金花在了数据获取上。随着数据收集和处理成本呈指数级攀升,其支出甚至超过了开发人员人力成本和基础设施成本。B公司代表透露:“承担不起成本的企业,会采取一些变通做法,比如将版权归属不明的视频转成文本(语音转文本,Speech-to-Text)来进行训练。”
在获取AI学习所必需的数据方面,已经拉响了警报。自从大型语言模型(LLM)出现后,AI模型所需的高质量数据正逐渐枯竭。有悲观预测认为,最早在数年内用于训练的数据就会耗尽,AI将迎来一段低迷期。
“数年内将出现数据断崖”
根据26日AI研究机构Epoch AI的预测,从两年后的2026年开始,用于AI训练的数据将开始被消耗殆尽。由于AI学习速度不断加快,已经超过了数据增长速度。Epoch AI尤其指出,“如果假设AI进行过度训练(Over training),那么从明年起就将面临数据枯竭”。所谓AI过度训练,是指为实现轻量化和高效化,不是扩大模型规模,而是不断增加训练数据的做法。
AI通过将学习范围扩展到文本、图像和视频,发展速度大幅加快。OpenAI在2020年推出的GPT-3学习了约3000亿个标记(句子的最小单位)。据推算,3年后发布的GPT-4学习了12万亿个标记。今年问世的Meta最新模型Llama 3学习的标记数量超过15万亿。短短4年间,训练数据量增加了50倍。
相反,获取数据却越来越难。迄今为止,AI大多是抓取图书、论文以及互联网上散布的信息进行学习。新闻、社交媒体、博客内容等也都是AI的“食粮”。但每年可用于AI训练的语言数据增幅仅约7%。
即便有数据,也必须先解决版权问题。此前AI被指擅自使用训练数据,引发争议,导致在新闻等领域的应用受阻。用于提升大型语言模型水平的高质量数据几乎已经断供。高质量数据要求题材多样、表达丰富,同时没有拼写或语法错误,并且信息前后一致。
然而,互联网上流转的信息中,高质量数据还不到10%。随着AI向能够识别语音、绘制图像的多模态AI演进,所需数据类型更加多样,但却难以获取。语音、视频数据不仅数量有限,而且因涉及个人信息问题而难以使用。AI训练数据专业企业Infiniq的首席研究员Choi Yura解释称:“与解决版权问题后可以使用的文本不同,几乎没有可用于工业用途的非结构化数据。”
韩文数据的匮乏更为严重。由于使用人群较少,可获取的数据本身就有限,也没有类似“Common Crawl”这样的数据开放平台。Common Crawl是美国一家非营利机构打造的平台,汇集并提供对在线公开数据中允许采集的部分。数据交易市场尚未成形,以至于连数据定价标准都难以建立。AI企业Konan Technology数据事业部理事Lee Moonki指出:“就算把Naver、Kakao等韩国企业的数据全部加在一起,规模也达不到数万亿韩元,仅为大型信息技术企业(Big Tech)的6%至7%水平。”
“七成企业面临数据短缺”
韩国国内企业普遍诉苦数据不足。根据科学技术信息通信部下属软件政策研究所发布的《2023人工智能产业现状调查》,国内AI企业中有70.8%表示在数据获取及质量方面遇到困难,将其列为仅次于AI人才短缺的第二大问题。数据问题的应答率甚至高于计算设备等AI基础设施不足(53.2%)。
大型企业也不例外。据悉,它们因数据不足而购买海外数据,或利用合成数据。Naver曾为训练超大规模AI“HyperCLOVA X”而使用新闻和博客等内容,但因版权问题,从去年起已停止新闻训练。虽然正就数据使用问题与媒体机构进行磋商,但双方立场仍存在较大分歧。业内人士表示:“大型企业的模型规模更大,因此需要更多数据。由于数据不足,只能购买英文数据,或者将版权归属不明的数据仅用于微调(Fine-tuning)。”
中小企业和初创公司的困难更大。因为从数据收集到将其加工为AI训练用数据的所有环节都要花钱。提供AI美妆解决方案的Entre Reality代表Lee Dongyun表示:“人脸数据因涉及个人信息,采集本身就很难,而且公开数据也不多。对初创公司而言,很可能从业务化验证(概念验证,PoC)阶段起就因数据不足而遭遇壁垒。”
有观点甚至认为,因数据短缺,AI可能迎来“第三个寒冬”。由于技术局限,AI在20世纪70年代和80年代曾两度陷入低迷。尽管随着ChatGPT等生成式AI的出现再次迎来黄金期,但也可能撞上数据断崖。英国科学类专业杂志《New Scientist》分析称:“随着训练数据被消耗殆尽,AI发展速度很可能放缓。”
近期,美国半导体企业英伟达股价连续下跌,也让此前趋于平静的“AI泡沫论”再度抬头。美联社指出:“AI热潮过于火爆,引发了对市场期待过高的担忧。”Lee理事表示:“由于数据不足,AI发展可能难以达到市场预期,我担心第三个寒冬会不会到来。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。