Kakao Brain发布图像识别并以文本作答的AI“허니비”
开源“多模态”语言模型上传至GitHub
可与用户交互,被视为下一代学习工具
Kakao Brain表示,已于19日在GitHub上公开多模态语言模型开源项目“Honeybee”。
Kakao Brain为提出一种能够连接图像与大规模语言模型的新模块,公开了高水准的多模态语言模型(MLLM,Multimodal Large Language Model)开源项目“Honeybee”。
目前,多模态语言模型相关研究中,公开的模型数量较少,训练方法也未被详细披露,开发难度较大。Kakao Brain为推动多模态语言模型的发展,决定公开其自主研发模型Honeybee的源代码。
MLLM是一种在输入图像和指令(提示词)后,以文本形式作答的模型,是在仅以文本进行输入输出的大规模语言模型基础上的扩展形式。该模型可以同时输入图像和文本,具备描述图像中所包含场景,以及理解并回答关于图文混合内容问题的能力。例如,将“一场篮球比赛中两名球员”的图像与“左侧球员获得过几次冠军?”这一英文问题一同输入Honeybee后,Honeybee会综合理解输入的图像内容和问题并生成回答。由此,在MME、MMBench、SEED-Bench等基准测试(性能实验)中,该模型相较已公开的其他厂商MLLM取得了最高性能。尤其是在评估感知能力和认知能力的MME基准测试中,在满分2800分中获得了1977分。
相关论文《Honeybee: Locality-enhanced Projector for Multimodal LLM(Honeybee:面向多模态大语言模型的局部性增强投影器)》已于去年发表在论文公开网站arXiv上。该论文对这一技术的说明是:“这项技术通过处理图像数据,帮助深度学习模型更高效地进行学习和理解”,“视觉投影器在连接预训练视觉编码器与大规模语言模型(LLM)方面发挥关键作用,通过这种方式,可以在加深视觉理解的同时,充分利用大规模语言模型的能力”。
Kakao Brain认为,凭借Honeybee的MLLM特性,用户输入图像并以文本形式提问,即可实现回答生成及与用户的交互,未来有望被用作高效的教育与学习辅助工具。
Kakao Brain联席代表Kim Ildu表示:“实现Honeybee模型推理的代码也已在GitHub上公开,正考虑基于Honeybee扩展各类服务”,“今后将为获取更为先进的人工智能(AI)模型而持续开展研究与开发”。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。