“主权AI”竞赛中“韩语语音主权”崛起…PersonaAI发布连方言都能理解的语音AI

by Jung Jin

Published 19 Jan.2026 09:00(KST)

“主权AI”竞赛中“韩语语音主权”崛起…PersonaAI发布连方言都能理解的语音AI

随着全球人工智能（AI）霸权竞争日益激化，各国正加快构建以本国语言、数据和基础设施为基础的“主权AI（Sovereign AI）”。

主权AI不仅仅意味着拥有AI，更指在不依赖外部的情况下，能够自主控制和运营本国的语言、文化及产业数据的AI主权。尤其是语音AI，被评估为直接左右语言主权的核心技术。

在这一趋势下，PersonaAI（代表 Yoo Seungjae，以下简称PersonaAI）经过两年集中研发，发布了精确实现韩语特性的下一代语音AI模型“SSTT（Sovereign AI Speech to Text）”。

SSTT不仅是简单的语音识别，其特点在于具备国内最高水准的语音数据精度。

该模型学习了4,000万条以上的韩语发话数据集（约5万小时以上语音数据），具备压倒性的理解能力。其整体学习量的约四分之一、即13,200小时被用于方言数据。通过这一方式，对庆尚、全罗、忠清、江原、济州等5大区域方言及其特有词汇进行精细区分。此外，还反映了AI难以识别的浓重方言、特有词汇以及60岁以上高龄说话者的语音特性，从而实现了跨世代、跨地域的顺畅沟通。

尤其值得一提的是，该模型突破了以标准语为中心的既有语音识别局限，被设计为能够识别韩语方言并进行说话人分离，可在实时及离线环境中运行。其支持前处理功能，集成了噪声与回声消除、用于远距离识别的自动增益控制（AGC）、基于深度学习的语音段检测、说话人变换点检测等高质量语音技术。

传统语音识别模型（STT，语音转文本）虽是将声音转换为文本的核心技术，但由于方言、语调和语速差异，在实际产业现场中存在识别准确度偏低的局限。因此，即便在呼叫中心、公共投诉、医疗与制造现场等语音识别需求旺盛的领域，市场普及也一直进展缓慢。

PersonaAI的SSTT正面解决了这些问题。其最多可对20名说话人进行分离，相比既有停留在4~5人水平的技术，实现了突破性的性能提升。在多方同时对话场景中，也能准确区分“是谁说了什么”，大幅拓展了在会议记录、现场监控、多用户界面等方面的应用范围。

这一技术进步被评价为迎接物理AI（Physical AI）时代的核心要素。未来，大多数物理AI设备，如机器人、自助终端、工业设备与自主系统等，都将以语音为中心进行控制与交互。在这一过程中，如果依赖特定国家或企业的进口语音模型，就可能在数据主权、安全和服务连续性方面产生结构性风险。

业界认为，PersonaAI的下一代语音AI模型从主权AI视角看，是极其重要的战略资产。能够精细识别韩语，尤其是地方方言的大型语音模型，在短期内难以被外部技术替代，被分析为与国家层面的AI主权确立直接相关。

PersonaAI是一家从AI模型开发到面向各产业落地解决方案全流程覆盖的企业，重点布局AI联络中心（AICC，AI Contact Center）和生成式AI（Generative AI）领域。近期，该公司继去年之后再次获得CES 2026创新奖，实现连续2年三冠王的纪录，在国际舞台上也证明了其技术竞争力。同时，公司还开发了被视为物理AI核心引擎的VLA（Vision-Language-Action，视觉-语言-动作）技术，提出了连接机器人、设备与AI的下一代运行架构。

PersonaAI相关负责人表示：“在主权AI竞争中，最重要的并不是单纯的模型规模，而是对本国语言和实际产业环境理解得有多深”，“SSTT是可以成为韩式主权AI实质性基础的核心模型”。