国内研究团队证明,在不投入天文数字般成本的情况下,通过改造英语基础的超大规模语言模型(Large Language Model,以下简称LLM),也可以开发出“高性能韩语LLM”。


LLM是指通过学习海量文本数据,从而理解和生成自然语言的人工智能(AI)模型。


(自左起)博士研究生 Son Youngjun、博士研究生 So Yeongyeong、硕士研究生 Park Chanwoo、教授兼课题负责人 Lee Jaejin、博士研究生 Kim Jinpyo、博士研究生 Seok Jihun、博士研究生 Cho Gyeongje、硕士研究生 Park Jongwon、博士研究生 Kim Jongmin 等研究团队成员合影留念。首尔大学 Lee Jaejin 教授研究团队提供

(自左起)博士研究生 Son Youngjun、博士研究生 So Yeongyeong、硕士研究生 Park Chanwoo、教授兼课题负责人 Lee Jaejin、博士研究生 Kim Jinpyo、博士研究生 Seok Jihun、博士研究生 Cho Gyeongje、硕士研究生 Park Jongwon、博士研究生 Kim Jongmin 等研究团队成员合影留念。首尔大学 Lee Jaejin 教授研究团队提供

View original image

据韩国研究财团4日消息,首尔大学教授 Lee Jaejin 研究团队近日在英语基础语言模型“Llama”的基础上进行改造,开发出了专门针对韩语的语言模型“Llama-Thunder-LLM”、韩语专用分词器“Thunder-Tok”,以及能够客观评估韩语LLM性能的“Thunder-LLM韩语基准测试”,并已在网上公开。


分词器是指将句子切分为语言模型可以理解的词或子词单元的工具。基准测试是将对象与特定标准进行比较,以测量和评估其性能的方法,广泛应用于计算机硬件(HW)、软件(SW)、自动逻辑控制(ALC)经营战略等多个领域。


利用LLM的人工智能技术正在全球范围内受到关注。在韩国国内,对开发韩语特化语言模型的兴趣也在不断升温。


然而,构建LLM需要海量数据,现实中不仅难以获得足够的数据,而且开发成本极为高昂,因此LLM开发主要集中在大型企业和海外大型科技公司。


中小研究机构和大学要推进与LLM相关的研究开发并不容易。


相比之下,该研究团队给出了颠覆既有局限的开发成果。从数据收集到后期训练,语言模型训练的所有阶段均由团队自主完成,证明了即便像中国LLM“DeepSeek”那样资源有限,也可以构建高性能语言模型。


虽然利用了公开的英语模型,但所采用的技术涵盖了开发自主模型所需的全部关键技术。这意味着研究团队已经具备开发高性能自主语言模型的技术能力。


研究团队开发的“Llama-Thunder-LLM”,是通过收集并预处理3TB韩语网页数据,在既有公开Llama模型的基础上,应用持续预训练(Continual Pre-training)和后期训练(Post Training)等改进方法而构建的韩语特化超大规模语言模型。


所谓持续预训练,是指在既有模型上追加学习新数据,以扩展模型特定能力的过程;后期训练则是为了提升模型在用户问答等特定任务上的表现而进行的额外微调训练。


反映韩语语法特性的分词器“Thunder-Tok”相比现有的Llama分词器,可节省44%的标记(Token)数量,同时提升推理速度和训练效率。当前的AI模型是逐个顺序生成下一个标记,生成的标记越少,运营成本就越低。


研究团队自主构建的韩语评估数据集所组成的“Thunder-LLM韩语基准测试”,为客观、系统地评估韩语LLM性能提供了基础。数据集是指用于AI模型训练、测试、数据可视化、研究或统计分析等目的的结构化数据集合。


Lee Jaejin 教授表示:“本次研究证明了不仅是大型企业和海外大型科技公司,学术界同样有能力自主开发LLM,对韩国的主权AI具有重要意义。研究团队已将以韩语为基础的LLM和分词器、基准测试数据集以及全部开发过程公开在网上,为任何人开展后续或复现研究提供了基础。”


主权AI这一名称源自“具有自主性、拥有主权”之意的“Sovereign”加上AI,指某一国家可以在本国境内独立运营和控制的AI系统。


为便于任何人自由使用,本次研究成果已公开在“超大规模AI模型及平台优化中心”网页上。



另一方面,本研究在科学技术信息通信部和韩国研究财团推进的先导研究中心(Engineering Research Center,ERC)项目资助下完成。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点