LG发布首个生成式AI商用服务：可自动描述图像的“图像字幕AI”

by Park Sunmi

Published 19 Jun.2023 10:00(KST)

LG AI研究院首个生成式AI商用服务上线
五大核心子公司亮相全球最大计算机视觉会议CVPR

LG推出了首个生成式人工智能商用服务——能够像人类一样用自然语言描述首次看到图像的“图像描述AI”。它可以生成用于图片搜索的信息性文本或关键词等元数据。通俗来说，就是由人工智能看图并自动撰写图像说明。

LG AI研究院于18日（当地时间）在加拿大温哥华举行的全球最大计算机视觉学术会议“CVPR（计算机视觉与模式识别）2023”上首次公开了有望改变图像搜索市场的图像描述AI。为使人工智能能够像人类一样，利用既有经验和知识来理解并描述首次看到的物体或场景，应用了“零样本图像描述”技术。这是一项让人工智能基于此前学习的大量图像和文本，识别背景、人物、动作等图像中的多种要素和特征，并能够说明它们之间关系的技术。

识别图像中多种要素和特征并生成说明文字和关键词的图像字幕生成型人工智能。

图像描述AI可以提升需要管理海量图像的企业的工作效率和生产力。平均在10秒内即可生成5个句子和10个关键词。如果将图像数量扩展到1万张，也能在两天内完成处理，从而在短时间内构建定制化的图像搜索与管理系统成为可能。

图像描述AI的诞生离不开LG AI研究院与Shutterstock的紧密合作。Shutterstock是全球最大的视觉内容平台企业之一，每天新增数十万张以上的图片和视频等视觉内容，聚集了大量在内容分析与处理方面经验丰富的专家。LG AI研究院与在图像描述领域拥有丰富经验、熟悉适用于图像分类与搜索的句子长度和表达方式等诀窍的Shutterstock，从数据训练到服务开发全流程携手合作，大幅提升了服务完成度。

当地时间18日举行的研讨会上，Lee Hongrak LG AI研究院 CSAI正在讲解其应用于字幕生成人工智能的零样本图像字幕生成技术。

LG AI研究院当天还以图像描述AI的基础技术“零样本图像描述”为主题，与首尔大学AI研究生院和Shutterstock共同举办了研讨会。研讨会以Seoul National University特聘教授 Lee Gyeongmu 的开幕致辞拉开序幕，LG AI研究院首席人工智能科学家（CSAI）、密歇根大学教授 Lee Honglak，法国国家信息与自动化研究所研究负责人兼Google Research研究员 Cordelia Schmid，Allen AI研究所研究员 Jack Hessel，Microsoft Research首席研究员兼华盛顿大学教授 Hamid Palangi，UC Berkeley研究员 Anna Rohrbach 等图像描述领域的世界级专家出席参与。

同时，本次研讨会上还举行了上半年开展的“LG全球AI挑战赛”颁奖仪式。这项名为“LG全球AI挑战赛”的比赛用于评估自主开发的人工智能模型的图像理解能力，共有142个研究团队参赛。获得挑战赛第1、2名的南京理工大学和KAIST参赛者也在研讨会上发表了各自的研究成果。

必读新闻

“黑色星期一趁低捡筹”……日野村看好“59万电子·400万海力士” 전망

LG AI研究院还将与LG电子、LG Innotek、LG能源解决方案、LG Uplus等主要子公司一道，在持续至22日的CVPR 2023期间，致力于全球优秀人工智能人才的招募。从20日起的三天里，各LG子公司的人工智能研究人员和招聘负责人将在LG联合展台展示各公司的最新人工智能技术并开展招聘咨询。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。