KAIST Choi Jaesik 教授团队开发改变模仿型 Stable Diffusion 生成结果的技术
有望引领设计创新
一项新技术已经被开发出来,使通过人类文本指令作画的人工智能(AI),能够不再只是通过学习进行模仿,而是以创造性的形式生成图像。
Choi Jaesik 及其 KAIST 教授团队研究的方法论应用案例。在多种 Stable Diffusion 模型中,相较于以往的生成结果,该方法在保持生成目标语义的同时,生成了更具新意的图像。
View original image韩国科学技术院(KAIST)Kim Jaechul AI研究生院Choi Jaesik教授研究团队与Naver AI Lab联合研究,于19日表示,他们开发出一项技术,可大幅强化包括Stable Diffusion在内的文本生成图像模型的创造性生成能力。
这项技术最大的特点在于,无需额外训练或新增数据,而是通过操控既有已训练AI模型的内部结构来提升创造性。AI因此能够自行绘制出诸如“不同寻常的创意椅子设计”之类的结果。该技术已通过GitHub公开,使用者即便只是在个人电脑本地环境中运行Stable Diffusion,也可以加以利用。
这项研究提出了人工智能有望超越简单模仿、展现真正意义上创造性的可能性,预期今后将在各类创意产业领域产生重大影响。
近期,文本生成图像模型仅凭自然语言描述就能自动生成高分辨率、高质量图像,展现出惊人的发展。Stable Diffusion能够高度忠实于文本提示词,并生成在视觉上令人满意的结果,其模型与源代码均已公开,因此在商业与研究目的上被广泛使用。
不过,Stable Diffusion也存在局限。即便给出复杂的文本指令,也难以得到真正有创意的图像,大多数结果看起来都像“似曾相识的画”。
研究团队确认,即便输入“有创意的”这一类文本提示词,Stable Diffusion模型生成图像的创造性依然处于受限水平。
既有的创意图像生成研究大多需要人工标注数据或额外训练,在效率方面存在制约。为克服这些局限,KAIST研究团队开发了“非训练方式”的创造性增强技术。
研究的核心,是通过放大文本生成图像模型的内部特征图(feature map),来强化其创造性生成。研究团队发现,模型内部的浅层块(shallow blocks)在创意生成中起着关键作用。
此外,研究团队还发现,如果对已训练生成模型的内部特征图进行一概而论的放大,会生成带有斑驳噪声或细碎色块等缺陷的图像。通过实验,他们确认这一现象发生在放大特征图的高频成分时。基于此,研究团队提出一种方法:将既有训练完成的Stable Diffusion模型的浅层块特征图转换到频率域,仅放大低频区域的特征图,从而有效增强创造性生成。
进一步地,研究团队综合考虑定义创造性的两个核心要素——独创性(originality)与有用性(usefulness),提出一套算法,能够为生成模型内部各个块自动选择最优放大系数。
借助该算法,对预训练Stable Diffusion模型的内部特征图进行适当操控,即可在无需额外分类数据或训练的情况下强化创造性生成。使用这一算法所获得的结果非常令人鼓舞。
研究团队利用多种量化指标,证明与传统生成方式相比,该技术在不显著损害有用性的前提下,大幅提升了独创性。尤其是在Stable Diffusion XL(SDXL)-Turbo模型中,还验证了其能够缓解“模式崩塌”(mode collapse)问题,从而提高图像多样性。
通过用户研究,在由人直接进行评价的情况下,也证实相较于既有方法,该技术显著提升了“相对于有用性的创新性”(novelty relative to usefulness)。本论文的共同第一作者、KAIST博士课程研究生Han Jiyeon与Kwon Dahee表示:“这是首个在不重新训练或微调生成模型的前提下,就能增强生成模型创造性生成能力的方法论”,“我们证明了可以通过操控特征图,强化潜藏在已训练人工智能生成模型内部的创造性。”
他们还表示:“本研究使得即便在既有训练完成的模型上,也能仅凭文本轻松生成富有创造性的图像。由此有望在创意商品设计等多个领域提供新的灵感,并推动人工智能模型在创意生态中得到切实而有用的应用。”
本研究由KAIST Kim Jaechul AI研究生院Choi Jaesik教授研究团队主导,Han Jiyeon与Kwon Dahee博士课程研究生担任共同第一作者。研究成果已于6月15日在国际学术期刊“国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)”上发布。本研究获得KAIST–Naver超创意AI研究中心、科学技术信息通信部、信息通信企划评价院、防卫事业厅、国防科学研究所等多家机构的资助与支持。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。