[AI革命](63)数据标注市场绝对第一…Crowdworks
拥有50万名众包工作者
为实现完美质量持有逾180项技术专利
市值前30强企业中70%是Crowdworks客户
“人工智能(AI)要靠人的双手来培育。”
AI 竞争优势的核心在于获取高质量数据。尤其是生成式 AI,是在人类收集并加工的数据基础上进行学习后产生的结果,要提升其质量,高质量训练数据至关重要。此外,根据使用了什么数据、如何使用这些数据,都会影响模型的偏向性和准确度,因此,随着 AI 市场不断扩张,对熟练数据标注员的需求必然持续增长。
数据标注是指将图像、文档、语音、视频等各类数据加工处理,使其能够被 AI 学习的工作。例如,在自动驾驶领域,为了让 AI 能够学习,需要先收集大量道路照片,再在照片中标注出哪些是道路、哪些是障碍物。AI 通过反复学习已经完成标注的数据,逐渐具备区分道路和障碍物的能力。
在这样的数据标注市场中,有一家企业通过名为“众包”的创新模式一路高速成长,这就是 Crowdworks。
如果由企业内部人员直接收集和加工数据,成本和时间必然大幅增加;而利用 Crowdworks 的外包数据标注员,则可以大幅节省成本和时间。
为了克服“众包模式难以保障数据质量”的局限,Crowdworks 通过一百八十余项技术专利来维持卓越的数据质量。Crowdworks 代表 Park Minu 表示:“多亏了约五十万名众包作业者,我们掌握的数据量之庞大,以至于后来者根本无法追赶。我们利用由四个阶段构成的人力验证系统,对五十万人收集和加工的数据进行百分之百全量审核,这最终实现了数据质量 99% 保证的成果。”
截至当天,Crowdworks 网站注册人数为 53万3538 名。虽然有效活动人数具有波动性,但公司方面称,这些人全部都可以随时以标注员身份投入工作。
Crowdworks 提供的服务包括:▲ 人工智能构建服务“Crowdworks” ▲ 面向人工智能数据构建的一体化解决方案“Works Stage” ▲ 数据标注员人力匹配及派遣服务“Crowd Jobs” ▲ 数据标注员培训服务“Crowd Academy”等。
凭借这些服务,Crowdworks 在创业仅 4 个月后便获得 Naver 2亿韩元投资。此后 6 年多时间里,公司与 Naver 50 余个团队开展合作,目前正参与包括 Naver 大型语言模型(LLM)HyperCLOVA X 在内的多项 AI 服务开发所必需的数据构建工作。
目前,公司向 Kakao、三星电子、KT、KB 国民银行等约 430 家客户提供定制化服务。科斯皮信息技术企业市值排名前 30 家企业中,有 70% 是 Crowdworks 的客户。上月底,公司还成功登陆科斯达克。
“Crowd Jobs”和“Crowd Academy”也为提升就业率作出了贡献。Crowdworks 对去年参加标注培训课程学员的收入数据进行分析后发现,在月收入达到 100 万韩元以上的学员中,有 80% 原本是失业者,如今已在数据标注员这一职业领域站稳脚跟并持续活动。
Park 代表表示:“从收入和工作时间不固定的自由职业者,到地理条件不利的人群,我们发现很多人在完成培训后,都以数据标注员身份积极工作。今后我们将提供更多与数据标注相关教育的信息,帮助学员在就业方面获得更多实质性帮助。”
公司也在加大面向企业对政府(B2G)的业务力度。Crowdworks 于去年 4 月新设公共事业本部,以应对各类机构、研究所和学校产生的数据需求。
Crowdworks 的下一目标是进军全球市场。公司计划以在国内积累的经验和技术实力为基础,正式进军欧洲、美洲及日本等海外市场,持续扩大业务版图。
Park 代表表示:“近期,海外企业正引入与自身高度匹配的生成式 AI 模型,以提升工作生产力和效率。我们将为企业设计和构建定制化数据,并开发契合企业需求的语言模型,引领海外市场发展。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。