Kakao Brain发布图像识别并以文本作答的AI“허니비”

by Lee Jungyun

Published 19 Jan.2024 11:01(KST)

Updated 19 Jan.2024 15:07(KST)

open/close

开源“多模态”语言模型上传至GitHub
可与用户交互，被视为下一代学习工具

Kakao Brain表示，已于19日在GitHub上公开多模态语言模型开源项目“Honeybee”。

Kakao Brain为提出一种能够连接图像与大规模语言模型的新模块，公开了高水准的多模态语言模型（MLLM，Multimodal Large Language Model）开源项目“Honeybee”。

目前，多模态语言模型相关研究中，公开的模型数量较少，训练方法也未被详细披露，开发难度较大。Kakao Brain为推动多模态语言模型的发展，决定公开其自主研发模型Honeybee的源代码。

MLLM是一种在输入图像和指令（提示词）后，以文本形式作答的模型，是在仅以文本进行输入输出的大规模语言模型基础上的扩展形式。该模型可以同时输入图像和文本，具备描述图像中所包含场景，以及理解并回答关于图文混合内容问题的能力。例如，将“一场篮球比赛中两名球员”的图像与“左侧球员获得过几次冠军？”这一英文问题一同输入Honeybee后，Honeybee会综合理解输入的图像内容和问题并生成回答。由此，在MME、MMBench、SEED-Bench等基准测试（性能实验）中，该模型相较已公开的其他厂商MLLM取得了最高性能。尤其是在评估感知能力和认知能力的MME基准测试中，在满分2800分中获得了1977分。

相关论文《Honeybee: Locality-enhanced Projector for Multimodal LLM（Honeybee：面向多模态大语言模型的局部性增强投影器）》已于去年发表在论文公开网站arXiv上。该论文对这一技术的说明是：“这项技术通过处理图像数据，帮助深度学习模型更高效地进行学习和理解”，“视觉投影器在连接预训练视觉编码器与大规模语言模型（LLM）方面发挥关键作用，通过这种方式，可以在加深视觉理解的同时，充分利用大规模语言模型的能力”。

Kakao Brain认为，凭借Honeybee的MLLM特性，用户输入图像并以文本形式提问，即可实现回答生成及与用户的交互，未来有望被用作高效的教育与学习辅助工具。