随着全球人工智能(AI)霸权竞争日益激化,各国正加快构建以本国语言、数据和基础设施为基础的“主权AI(Sovereign AI)”。
主权AI不仅仅意味着拥有AI,更指在不依赖外部的情况下,能够自主控制和运营本国的语言、文化及产业数据的AI主权。尤其是语音AI,被评估为直接左右语言主权的核心技术。
在这一趋势下,PersonaAI(代表 Yoo Seungjae,以下简称PersonaAI)经过两年集中研发,发布了精确实现韩语特性的下一代语音AI模型“SSTT(Sovereign AI Speech to Text)”。
SSTT不仅是简单的语音识别,其特点在于具备国内最高水准的语音数据精度。
该模型学习了4,000万条以上的韩语发话数据集(约5万小时以上语音数据),具备压倒性的理解能力。其整体学习量的约四分之一、即13,200小时被用于方言数据。通过这一方式,对庆尚、全罗、忠清、江原、济州等5大区域方言及其特有词汇进行精细区分。此外,还反映了AI难以识别的浓重方言、特有词汇以及60岁以上高龄说话者的语音特性,从而实现了跨世代、跨地域的顺畅沟通。
尤其值得一提的是,该模型突破了以标准语为中心的既有语音识别局限,被设计为能够识别韩语方言并进行说话人分离,可在实时及离线环境中运行。其支持前处理功能,集成了噪声与回声消除、用于远距离识别的自动增益控制(AGC)、基于深度学习的语音段检测、说话人变换点检测等高质量语音技术。
传统语音识别模型(STT,语音转文本)虽是将声音转换为文本的核心技术,但由于方言、语调和语速差异,在实际产业现场中存在识别准确度偏低的局限。因此,即便在呼叫中心、公共投诉、医疗与制造现场等语音识别需求旺盛的领域,市场普及也一直进展缓慢。
PersonaAI的SSTT正面解决了这些问题。其最多可对20名说话人进行分离,相比既有停留在4~5人水平的技术,实现了突破性的性能提升。在多方同时对话场景中,也能准确区分“是谁说了什么”,大幅拓展了在会议记录、现场监控、多用户界面等方面的应用范围。
这一技术进步被评价为迎接物理AI(Physical AI)时代的核心要素。未来,大多数物理AI设备,如机器人、自助终端、工业设备与自主系统等,都将以语音为中心进行控制与交互。在这一过程中,如果依赖特定国家或企业的进口语音模型,就可能在数据主权、安全和服务连续性方面产生结构性风险。
业界认为,PersonaAI的下一代语音AI模型从主权AI视角看,是极其重要的战略资产。能够精细识别韩语,尤其是地方方言的大型语音模型,在短期内难以被外部技术替代,被分析为与国家层面的AI主权确立直接相关。
PersonaAI是一家从AI模型开发到面向各产业落地解决方案全流程覆盖的企业,重点布局AI联络中心(AICC,AI Contact Center)和生成式AI(Generative AI)领域。近期,该公司继去年之后再次获得CES 2026创新奖,实现连续2年三冠王的纪录,在国际舞台上也证明了其技术竞争力。同时,公司还开发了被视为物理AI核心引擎的VLA(Vision-Language-Action,视觉-语言-动作)技术,提出了连接机器人、设备与AI的下一代运行架构。
PersonaAI相关负责人表示:“在主权AI竞争中,最重要的并不是单纯的模型规模,而是对本国语言和实际产业环境理解得有多深”,“SSTT是可以成为韩式主权AI实质性基础的核心模型”。
当前主权AI已成为国家竞争力的核心,PersonaAI以韩语语音主权为目标的布局,被期待将对物理AI以及公共和产业全领域产生强大的溢出效应。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。