汇聚韩语数据实现AI自主…Upstage成立“1T俱乐部”

by Lee Seungjin

Published 14 Aug.2023 08:37(KST)

Upstage开始着手解决韩语数据不足的问题。公司计划借此在被OpenAI的ChatGPT等海外企业垄断的超大规模语言模型（LLM）市场中实现自主化。

Upstage于14日表示，将成立“1T俱乐部”。“1T俱乐部”是“1 Trillion（万亿）Token Club”的缩写，由为超过1亿词规模、涵盖文本、图书、文章、报告、论文等多种形式的韩语数据作出贡献的合作伙伴组成。

“1T俱乐部”旨在解决韩语数据不足的问题，并通过开发高性能LLM，实现韩国在LLM领域的独立。LLM开发必须以海量语言数据为基础。韩语数据是推动本土LLM发展的必需资源，但受版权问题等影响，与英语数据相比严重不足。以外语为中心训练的海外企业LLM，不仅韩语能力有限，在情感、地域性信息方面也存在薄弱环节，导致本土企业难以有效利用。

实际上，就韩语数据的训练量而言，以GPT-3为基准约为1亿个Token，占比仅0.01697%，在所有语言中仅排第28位。而英语则以45万亿个Token进行训练，由此造成与数据量成正比的各语言LLM性能差距。

Upstage目前正与20多家媒体机构及企业、学界等数据提供方就建立合作伙伴关系进行协商。公司计划不仅与各类企业就构建高性能私有LLM展开合作，也将与能够为韩语LLM发展作出贡献的各领域合作伙伴推进协作。

Upstage计划通过“1T俱乐部”进一步提升韩国的人工智能能力，并全力以赴，推动韩国在全球人工智能产业中确立领跑者地位。尤其是，公司将致力于解决因通过网络抓取进行人工智能训练而引发的版权争议等副作用问题，并以使数据提供方和模型开发方双方均能受益的方式进行运营。

必读新闻

“月薪150万不如去美国年入5亿” 首尔大·KAIST人才纷纷收拾行囊 [科学家正在消失]①

Upstage首席执行官Kim Seonghun表示：“LLM是当今生成式人工智能的核心技术，为使国内各行各业的企业都能自由使用高性能私有LLM，构建相应生态系统至关重要。”他还表示：“我们将通过‘1T俱乐部’维护数据提供方的权益，并在此基础上开发能够充分承载韩国文化与情感的LLM，努力让国内所有企业都能共享人工智能发展的红利。”

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。

汇聚韩语数据实现AI自主…Upstage成立“1T俱乐部”

必读新闻

不容错过的热点