专访 Twelve Labs 创始人 Lee Jaesung
打造视频搜索与摘要专用模型“Marengo”“Pegasus”
九成以上客户来自北美
借助 AWS Bedrock 扩大客户数量
“将叩响欧洲市场大门”

“我们的目标是在未来4至5年内,用我们的模型‘Marengo’为全球80%以上的视频数据建立索引。它将成为所有人工智能代理在利用视频时必经的‘视频智能层’。”


1日(当地时间),在美国拉斯维加斯举行的亚马逊云服务(Amazon Web Services,AWS)re:Invent大会现场,记者见到的Twelve Labs首席执行官Lee Jaesung如此介绍公司的目标。他表示,希望打造一个在利用人工智能(AI)处理视频时必不可少的模型。Twelve Labs计划在明年第一季度推出面向视频领域的人工智能代理服务。


1日(当地时间),Twelvelabs代表 Lee Jaesung 在美国拉斯维加斯威尼斯人酒店接受采访时摆出姿势。Lee Myunghwan 记者提供

1日(当地时间),Twelvelabs代表 Lee Jaesung 在美国拉斯维加斯威尼斯人酒店接受采访时摆出姿势。Lee Myunghwan 记者提供

View original image

由Lee Jaesung于2021年创立的Twelve Labs,正以多模态人工智能技术为基础开发视频基础模型(Video Foundation Model,VFM)。目前,公司提供的人工智能模型包括:通过分析(建立索引)视频中的文本、图像与音频信息,帮助用户检索特定片段的“Marengo”,以及可以分析视频并生成摘要,或就视频内容进行问答的“Pegasus”等。自创立以来,公司累计融资规模约为1.07亿美元(约合1500亿韩元)。英伟达、英特尔等全球大型信息技术企业,以及Naver、SK电信等韩国一流企业也都投资了Twelve Labs。


Twelve Labs正在筹备推出一款超越简单搜索与索引、能够由人工智能自主完成视频分析与剪辑的“视频代理”,计划于明年第一季度上市。比如,向该代理发出“帮我制作一段本赛季孙兴慜主要精彩表现的集锦视频”这一请求后,人工智能代理会自动检索主要进球画面,并自行完成视频剪辑与生成。


Twelve Labs的模型与现有大型科技公司的视频理解模型不同之处在于,它能够“按视频本身”的形态来理解内容。传统模型会将视频按帧(视频的最小单元)拆分为静态图像,再将其转换为文本进行训练,因此无法把握视频的整体语境。举例而言,如果用传统模型学习一段拍摄“夕阳西下”场景的视频,它无法区分日出与日落。Lee Jaesung强调:“传统方式会丢失时间与空间的语境,而Marengo是一款对视频整体进行学习的原生模型,能够准确把握时间流逝与因果关系。”


Twelve Labs当天正式发布了最新模型“Marengo 3.0”。据介绍,这是Twelve Labs迄今为止推出的功能最强大的模型。它不再停留在对视频的简单观看层面,而是能够综合理解视频场景中的文本、语音、动作等情境语境。模型会对视频中的情境、出场人物的动作、天气等信息进行综合理解,并预先整理好,便于日后检索。


与此前版本相比,Marengo 3.0的视频索引速度提升了约2倍,用于视频存储的成本也减半。Lee Jaesung谈到Marengo 3.0时表示:“与既有模型相比,这一版本在体育领域的能力尤为突出。它可以理解运动员的特定动作和体育术语,在制作集锦视频方面将非常有用。”


Marengo通过AWS生成式人工智能平台“Amazon Bedrock”实现成长

Marengo能够实现高速增长,得益于AWS的生成式人工智能平台“Amazon Bedrock”。Bedrock是一项帮助构建生成式人工智能服务或代理的服务,用户可在同一平台上使用多种人工智能模型。Lee Jaesung介绍称:“自7月底将Marengo接入Bedrock以来,5个月间已获得约3万家企业客户,大部分客户是通过Bedrock使用Marengo的AWS企业客户。”


企业客户所处的行业也十分广泛。根据Twelve Labs的数据,目前公司超过90%的整体营收来自北美市场。除体育、娱乐等处理视频内容的行业外,公司还在政府、安全等多个领域拓展了客户。在韩国国内,世宗市也正在利用Twelve Labs的模型进行闭路电视(CCTV)分析。


公司在全球扩张方面也在加速推进。除了主要舞台美国与韩国之外,还计划进军欧洲市场。由于英格兰足球超级联赛(English Premier League,EPL)、一级方程式赛车(Formula One,F1)等主要体育赛事集中在欧洲,公司判断当地需求十分充足。目前已经完成英国子公司的设立,并在招聘当地工作人员。


Lee Jaesung的目标,是通过能够理解视频本身的人工智能模型,抓住处理海量视频的企业客户需求。他强调说:“全球90%的数据都是以视频形式存在,但几乎无法检索。我们的目标是,帮助企业快速为其庞大的视频资产建立索引并实现检索,从而创造新的价值。”



1日(当地时间),Twelve Labs代表 Lee Jaesung在美国拉斯维加斯威尼斯人酒店接受《亚洲经济》采访。记者 Lee Myunghwan

1日(当地时间),Twelve Labs代表 Lee Jaesung在美国拉斯维加斯威尼斯人酒店接受《亚洲经济》采访。记者 Lee Myunghwan

View original image


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点