[AI革命](98)“训练数据质量决定AI性能”……寻找最优解决方案的Selectstar
从学习数据策划到构建与管理
累计作业数据达1.7亿条
“真正拉开AI企业差距的终究是数据”
“和人类一样,对人工智能(AI)而言,‘向谁学、学了什么’极其重要。”
随着人工智能能够自主学习并进行类似人类的思考,各行业正积极推动将生成式AI引入产业现场。但并非所有AI都能展现出最佳性能。对于被设计成通过与数据互动并在此基础上不断进化的生成式AI而言,训练数据的数量和质量直接决定其性能。
SelectStar是一家从AI训练数据策划起步,提供筛选、构建、分析与管理等全流程服务的平台企业。在生成式AI中备受关注的大型语言模型(LLM),学习信息越庞大,给出恰当答案的概率就越高。比如让AI推理填补某个句子空白时,它会反复学习海量资料,直到能给出最优答案。AI通过统计概率来学习“哪一个词最适合填在空白处”,而掌握的数据越多,推理出合适词语的概率就越高。SelectStar分析在“训练多少数据、如何构成数据集”时可以实现最优性能,并为各企业制作并提供其所需的数据。不仅要重视数量,还要重视质量,目标是找到“最优”的解决方案。
SelectStar联合代表 Kim Seyeob 表示:“为AI制作训练资料非常重要,必须构建各产业领域的专用数据”,并解释称:“我们对具有特定领域经验的数据标注人员所收集的资料进行加工,帮助AI从中学习。”他接着补充说:“根据各类案例,在有限资源下帮客户找到‘什么才是最优解’是我们的角色。AI数据不仅用于训练,也用于评估,我们也在开展评估数据的设计与制作业务。”
SelectStar在与LLM相关的数据训练方面具有明显优势,经验与案例极为丰富,同时也具备专业性。自2018年11月成立以来,累计处理的数据任务已达1.7亿条,客户企业多达230家,包括三星电子、SK电信、LG CNS等。
公司还为AI训练过程中可能出现的版权问题提供解决方案。Kim代表表示:“目前因直接抓取互联网信息进行爬取而引发的版权相关诉讼层出不穷,我们也在从拥有内容使用许可的机构获取数据销售权,再向企业供应数据。”除此之外,公司还通过AI视频通话服务等,尝试将服务从企业端扩展到普通大众。
SelectStar还以明年年底为目标推进首次公开募股(IPO)。Kim代表称:“目前AI模型由大型科技公司提供,而对于借用这些模型的企业和初创公司而言,真正能拉开差距的最终还是数据。我们会持续思考,努力成为所有想要开发AI的人首先想到、必然会来寻找的那家公司。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。