B2EN 完成“基于语音识别的视频摘要数据”AI 训练数据质量检测

by Jang Hyowon

Published 25 Mar.2024 10:01(KST)

人工智能（AI）专业企业Bitwin（代表理事 An Taeil）25日表示，已完成由科学技术信息通信部主管、韩国智能信息社会振兴院（NIA）推进的“2023年人工智能（AI）学习用数据构建项目”中各联合体的数据质量检查。

Bitwin在“2023年人工智能（AI）学习用数据构建项目”中，就“基于语音识别的视频摘要数据”、“漫画网络漫画数据”、“建筑裂缝探测图像（高阶化）”等课题，与PCN、Saltlux、Teambell等企业组成联合体开展协作。

尤其是，Bitwin以3个联合体的人工智能（AI）学习用数据质量管理专职企业及质量管理服务企业身份参与，承担了▲制定并执行质量管理计划 ▲分阶段质量管理活动检查 ▲TTA质量验证专职支持等联合体内整体质量管理工作。

同时，利用人工智能（AI）学习用数据质量管理解决方案“SDQ for AI”，依据韩国智能信息社会振兴院（NIA）《人工智能学习用数据质量管理指南》，对数据结构、输入值范围、数据格式进行语法准确性检测，并通过对类别（class）、实例分布、句子长度、词汇数量等进行测量的统计多样性检测，从构建初期阶段起就采集了高质量的人工智能（AI）学习用数据。

在本次课题中，Bitwin完成质量检查的人工智能（AI）学习用数据共4种，合计66万条，其中图像63万条，子标注（超大规模AI语料库、图像描述）3万条，语音3000小时。尤其是通过支持韩语、灾难安全环境、文化观光等多个领域学习用数据的质量管理，再次证明了其在人工智能（AI）学习用数据质量管理方面的技术实力。

此外，为支持构建超大规模AI生态系统，还成功完成了可作为语言模型使用的语料数据质量检测，相关语料数据总计186万句、1744万词元（以词组为单位），规模庞大且质量上乘。

Bitwin AIX事业群负责人 Park Sunhyeok表示：“自2020年至2023年连续4年参与人工智能（AI）学习用数据构建项目，公司提供的质量验证服务及‘SDQ for AI’解决方案的技术实力与稳定性已得到认可。”

他接着表示：“在2024年度超大规模AI扩散生态系统构建项目中，我们计划以参与企业、服务提供方（质量管理专职）、第三方质量验证服务方（按检验件数）等多种形式参与。”并称：“今年将在原有的大规模语料数据基础上，扩大对数据重复性、内容相似性、有害性等方面的质量管理，在既有提供的语法准确性、统计多样性检测之外，还将同时支持语义准确性检测。”