“随口几句话就能生成一支广告片”……实测GPT Image 2.0

by Lee Eunseo

Published 28 Apr.2026 07:43(KST)

继Vibe Coding之后 Vibe Image快速扩散

“我要制作一支宣传北欧美容护肤品牌的广告视频。请生成一个看起来像电影《仲夏夜惊魂》中会出现的场景：少女身着白色连衣裙，头戴花饰出场。”

记者利用OpenAI GPT Image 2.0和字节跳动 Shidance 2.0制作的虚构化妆品广告视频。Lee Eunseo 记者供图.

只要用自然语言向人工智能（AI）说明创意点子，短时间内就能生成任何类型的视频。记者从未真正使用过Photoshop，也没接触过手机摄像头以外的拍摄设备，但凭借这样的设计与演出水平，不到30分钟就完成了一支化妆品广告视频。在一小时内制作了两支视频，广告片、动画片等各种类型之间自由切换。如今，即便是非专业人士也能像导演一样制作视频的“Vibe Design”已成为现实。

视频中登场的人物，是借助OpenAI的GPT Image 2.0生成的，完全不需要艰深的专业术语。只需用文本或语音详细描述人物的形象与穿着，或附上参考照片，就能不断下达修改指令，直到生成与想象相符的照片。

使用GPT Image 2.0制作广告视频的参考设定集。通过按镜头细化的图像可以提升视频质量。Lee Eunseo 记者供图.

人物图像完成后，又指示大型语言模型（LLM）撰写视频提示词（Prompt），并提出“请保证视频从头到尾保持一致性”的要求。为了让视频没有违和感，画面中的灯光、镜头运动、人物面部都必须前后一致。记者先说明要制作一段由3个场景构成、时长10秒的视频，然后按0～4秒、4～7秒、7～10秒等将每个场景中将要出现的内容简要写出。接着再提出“请为各场景设计连续镜头提示词，并生成成块代码（代码块）”的要求，模型便按秒拆分各场景，调节人物动作、视频速度、画面色彩对比等内容，生成了完整的提示词。

尤其是借助GPT Image 2.0，可以为视频生成式AI制作用作参考的设定集（Reference Sheet），从而提升视频质量。将把提示词内容逐镜头转化为图像的设定集和提示词一并输入字节跳动的S-Dance 2.0后，仅用5分钟视频便生成完毕。

在可组合多种AI设计工具的设计平台Hixfield上，利用Sydance 2.0制作的时长15秒的动画视频。左侧附上提示词和参考照片后，等待约5分钟即可生成视频。记者李恩瑞。

几句话就能自由生成图像和视频

28日，在设计平台Hixfield和社交媒体上，利用GPT Image 2.0与S-Dance 2.0等多种AI设计工具，通过提示词制作广告片、电影感短片、游戏实机演示视频的案例正在不断扩散。继用自然语言编写代码的“Vibe Coding”之后，只要用自然语言讲述灵感和创意、在短时间内完成设计的“Vibe Design”也正逐渐融入日常生活。

过去一个月间公开的谷歌实验室Vibe Design平台“Stitch”、Anthropic的“Claude Design”、OpenAI的“GPT Image 2.0”等工具的共同点在于：可以利用图像、文本、代码等多种形式的创意，在几分钟内实现设计。设计师们无需另行绘制将企划意图和画面结构可视化的初始草图（线框图），就可以直接通过提示词开展工作。

必读新闻

“月薪150万不如去美国年入5亿” 首尔大·KAIST人才纷纷收拾行囊 [科学家正在消失]①

用户为了避免主角的细节特征在视频中途发生变化，需要先给出开头和结尾的场景，并按秒拆分场景撰写提示词，以便自然呈现画面光线。这时，AI所具备的“保持一致性”功能，成为非专业人士也能产出高质量成品的基础。谷歌实验室近期以开源形式提供了一种名为“DESIGN.md”的文件格式，借此用户在进行多项工作时，也能在同一项目中保持统一的设计风格。Anthropic的Claude Design同样会分析代码库，构建设计系统，并自动应用配色、字体以及设计组件等功能。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。