[AI革命](98)“训练数据质量决定AI性能”……寻找最优解决方案的Selectstar

by Lee Jungyun

Published 30 Mar.2024 09:00(KST)

Updated 01 Apr.2024 14:08(KST)

open/close

从学习数据策划到构建与管理
累计作业数据达1.7亿条
“真正拉开AI企业差距的终究是数据”

Selectstar 共同代表 Kim Seyeob 正在讲解人工智能（AI）训练数据。摄影=记者 Heo Younghan

“和人类一样，对人工智能（AI）而言，‘向谁学、学了什么’极其重要。”

随着人工智能能够自主学习并进行类似人类的思考，各行业正积极推动将生成式AI引入产业现场。但并非所有AI都能展现出最佳性能。对于被设计成通过与数据互动并在此基础上不断进化的生成式AI而言，训练数据的数量和质量直接决定其性能。

SelectStar是一家从AI训练数据策划起步，提供筛选、构建、分析与管理等全流程服务的平台企业。在生成式AI中备受关注的大型语言模型（LLM），学习信息越庞大，给出恰当答案的概率就越高。比如让AI推理填补某个句子空白时，它会反复学习海量资料，直到能给出最优答案。AI通过统计概率来学习“哪一个词最适合填在空白处”，而掌握的数据越多，推理出合适词语的概率就越高。SelectStar分析在“训练多少数据、如何构成数据集”时可以实现最优性能，并为各企业制作并提供其所需的数据。不仅要重视数量，还要重视质量，目标是找到“最优”的解决方案。

SelectStar联合代表 Kim Seyeob 表示：“为AI制作训练资料非常重要，必须构建各产业领域的专用数据”，并解释称：“我们对具有特定领域经验的数据标注人员所收集的资料进行加工，帮助AI从中学习。”他接着补充说：“根据各类案例，在有限资源下帮客户找到‘什么才是最优解’是我们的角色。AI数据不仅用于训练，也用于评估，我们也在开展评估数据的设计与制作业务。”