[AWS re:Invent]“全球80%视频都将用我们的模型索引…明年推出视频代理”

by Lee Myeonghwan

Published 02 Dec.2025 09:00(KST)

Updated 02 Dec.2025 14:57(KST)

open/close

专访 Twelve Labs 创始人 Lee Jaesung
打造视频搜索与摘要专用模型“Marengo”“Pegasus”
九成以上客户来自北美
借助 AWS Bedrock 扩大客户数量
“将叩响欧洲市场大门”

“我们的目标是在未来4至5年内，用我们的模型‘Marengo’为全球80%以上的视频数据建立索引。它将成为所有人工智能代理在利用视频时必经的‘视频智能层’。”

1日（当地时间），在美国拉斯维加斯举行的亚马逊云服务（Amazon Web Services，AWS）re:Invent大会现场，记者见到的Twelve Labs首席执行官Lee Jaesung如此介绍公司的目标。他表示，希望打造一个在利用人工智能（AI）处理视频时必不可少的模型。Twelve Labs计划在明年第一季度推出面向视频领域的人工智能代理服务。

1日（当地时间），Twelvelabs代表 Lee Jaesung 在美国拉斯维加斯威尼斯人酒店接受采访时摆出姿势。Lee Myunghwan 记者提供

由Lee Jaesung于2021年创立的Twelve Labs，正以多模态人工智能技术为基础开发视频基础模型（Video Foundation Model，VFM）。目前，公司提供的人工智能模型包括：通过分析（建立索引）视频中的文本、图像与音频信息，帮助用户检索特定片段的“Marengo”，以及可以分析视频并生成摘要，或就视频内容进行问答的“Pegasus”等。自创立以来，公司累计融资规模约为1.07亿美元（约合1500亿韩元）。英伟达、英特尔等全球大型信息技术企业，以及Naver、SK电信等韩国一流企业也都投资了Twelve Labs。

Twelve Labs正在筹备推出一款超越简单搜索与索引、能够由人工智能自主完成视频分析与剪辑的“视频代理”，计划于明年第一季度上市。比如，向该代理发出“帮我制作一段本赛季孙兴慜主要精彩表现的集锦视频”这一请求后，人工智能代理会自动检索主要进球画面，并自行完成视频剪辑与生成。

Twelve Labs的模型与现有大型科技公司的视频理解模型不同之处在于，它能够“按视频本身”的形态来理解内容。传统模型会将视频按帧（视频的最小单元）拆分为静态图像，再将其转换为文本进行训练，因此无法把握视频的整体语境。举例而言，如果用传统模型学习一段拍摄“夕阳西下”场景的视频，它无法区分日出与日落。Lee Jaesung强调：“传统方式会丢失时间与空间的语境，而Marengo是一款对视频整体进行学习的原生模型，能够准确把握时间流逝与因果关系。”

Twelve Labs当天正式发布了最新模型“Marengo 3.0”。据介绍，这是Twelve Labs迄今为止推出的功能最强大的模型。它不再停留在对视频的简单观看层面，而是能够综合理解视频场景中的文本、语音、动作等情境语境。模型会对视频中的情境、出场人物的动作、天气等信息进行综合理解，并预先整理好，便于日后检索。

与此前版本相比，Marengo 3.0的视频索引速度提升了约2倍，用于视频存储的成本也减半。Lee Jaesung谈到Marengo 3.0时表示：“与既有模型相比，这一版本在体育领域的能力尤为突出。它可以理解运动员的特定动作和体育术语，在制作集锦视频方面将非常有用。”

Marengo通过AWS生成式人工智能平台“Amazon Bedrock”实现成长

Marengo能够实现高速增长，得益于AWS的生成式人工智能平台“Amazon Bedrock”。Bedrock是一项帮助构建生成式人工智能服务或代理的服务，用户可在同一平台上使用多种人工智能模型。Lee Jaesung介绍称：“自7月底将Marengo接入Bedrock以来，5个月间已获得约3万家企业客户，大部分客户是通过Bedrock使用Marengo的AWS企业客户。”

企业客户所处的行业也十分广泛。根据Twelve Labs的数据，目前公司超过90%的整体营收来自北美市场。除体育、娱乐等处理视频内容的行业外，公司还在政府、安全等多个领域拓展了客户。在韩国国内，世宗市也正在利用Twelve Labs的模型进行闭路电视（CCTV）分析。

公司在全球扩张方面也在加速推进。除了主要舞台美国与韩国之外，还计划进军欧洲市场。由于英格兰足球超级联赛（English Premier League，EPL）、一级方程式赛车（Formula One，F1）等主要体育赛事集中在欧洲，公司判断当地需求十分充足。目前已经完成英国子公司的设立，并在招聘当地工作人员。

Lee Jaesung的目标，是通过能够理解视频本身的人工智能模型，抓住处理海量视频的企业客户需求。他强调说：“全球90%的数据都是以视频形式存在，但几乎无法检索。我们的目标是，帮助企业快速为其庞大的视频资产建立索引并实现检索，从而创造新的价值。”