UNIST Yoo Jaejun教授团队将在ECCV 2024发布轻量化、视频与设计创新成果

蔚山科学技术院(UNIST,校长 Park Jongrae)人工智能研究生院 Yu Jaejun 教授团队在人工智能轻量化到设计自动化等领域提出了人工智能技术的未来方向。

从左起为教授 Yoo Jaejun、研究员 Jang Yujin、研究员 Yeo Sangyeop。

从左起为教授 Yoo Jaejun、研究员 Jang Yujin、研究员 Yeo Sangyeop。

View original image

Yu 教授团队在本月4日举行的世界顶级计算机视觉学会——2024年欧洲计算机视觉大会(ECCV,European Conference on Computer Vision)上发表了3篇论文。在人工智能性能极大化、轻量化以及利用多模态人工智能实现设计自动化等方面取得了创新性成果。


① 人工智能体积缩小323倍,性能仍保持不变


Yu Jaejun 教授团队成功将图像生成人工智能——生成对抗网络(GAN,Generative Adversarial Networks)压缩至原来的323分之一,同时实现了无性能下降的轻量化。团队利用知识蒸馏(knowledge distillation)技术,提出了在缺乏高性能计算机的边缘设备或低功耗计算机上高效使用人工智能的可能性。


Yu 教授表示:“我们证明了被压缩323倍的生成对抗网络依然能够生成与原来同水平的高质量图像,这为在边缘计算或低功耗设备上使用高性能人工智能打开了大门。”


第一作者研究员 Yeo Sangyeop 解释称:“即便在资源受限的环境下,也为实现高性能人工智能打开了可能性,将大幅拓展人工智能的应用范围。”


研究团队引入 DiME 和 NICKEL 技术,通过比较分布而非逐张比较图像的方式提升了稳定性。比如,当教师模型生成 Kim Taehee 的图像时,即使学生模型生成的是 Song Hyekyo 或 Jun Jihyun 的图像,也能够完成有效学习。


NICKEL 技术通过优化生成器与分类器之间的相互作用,使轻量化模型仍能保持较高性能。将两种技术结合后,即便是被压缩323倍的生成对抗网络模型,也能生成与原模型同等水平的高质量图像。


② 视频生成人工智能:无需高性能算力也能生成高分辨率视频


Yu Jaejun 教授团队开发出一种混合式视频生成模型(HVDM),即便在高性能计算资源不足的环境下,也能高效生成高分辨率视频。HVDM 将二维三平面(2D triplane)表示与三维小波变换相结合,能够同时处理视频的全局语境与细节信息。


以往的视频生成模型依赖高性能计算资源来生成高分辨率视频,而 HVDM 在资源受限的条件下也成功实现了自然且高质量的视频生成,克服了卷积神经网络(CNN)基础自编码器方法的局限。


研究团队通过 UCF-101、SkyTimelapse、TaiChi 等视频基准数据集验证了 HVDM 的优越性。HVDM 实现了比既有技术更高的视频质量,在视频流畅度和细节逼真度方面展现出卓越性能。


Yu 教授表示:“HVDM 是一种即便在高性能计算资源不足的情况下,也能高效生成高分辨率视频的突破性模型,有望在视频制作与仿真等产业领域得到广泛应用。”


③ Web-UI 设计人工智能,广告海报一键生成!


研究团队还开发出一种多模态布局生成模型,即便在数据量较少的情况下,也能自动生成广告横幅和 Web-UI 设计。该模型可同时处理图像与文本,仅凭用户输入就能自动生成合适的布局。


以往模型由于数据不足,无法充分处理文本和图像信息。新开发的模型解决了这一问题,大幅提升了广告设计和网页用户界面(Web UI)的实用性。通过最大化文本与图像之间的交互,模型能够自动生成同时反映视觉元素与文本信息的最优设计。


研究团队将布局信息转换为 HTML 代码形式,最大限度利用语言模型的预训练数据,构建出在少量数据条件下也能发挥优异性能的自动生成流水线。基准测试结果显示,性能最高提升达2800%。


在预训练过程中,团队利用图像描述数据集,并结合深度图(Depth-Map)与 ControlNet 技术,通过数据增强极大提升了性能。布局生成质量得到显著改善,同时减少了数据预处理过程中可能出现的失真,从而生成更加自然的设计。


Yu 教授强调:“仅用约5000张数据,就实现了比以往需要6万张以上数据的模型更好的性能。不仅专家,普通用户也能轻松使用,将为广告横幅和网页用户界面设计的自动化带来巨大变革。”

模型整体学习结构示意图。

模型整体学习结构示意图。

View original image

本研究在韩国研究财团(NRF)、科学技术情报通信部(MSIT)、信息通信规划评价院(IITP)以及蔚山科学技术院(UNIST)的支持下完成。研究成果有望在多个产业领域进一步拓展人工智能的应用可能性,并最大化性能与效率。





本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点