“Grok是最有趣的AI”……马斯克对谷歌图像AI发起反击

by Choi Yuri

Published 20 Aug.2024 07:00(KST)

假图风波自招的 Groq2
与强化安全性的谷歌截然相反的路线
哪种策略更奏效引发市场关注

用 xAI 的 Grok 2 生成的伪造图像。X提供

由 Elon Musk 这位特斯拉创始人创立的 xAI，向图像生成人工智能（AI）市场发起挑战。其公开了人工智能聊天机器人“Grok 2”的测试版，并新增图像生成功能，采用的是德国初创公司 Black Forest Labs 的图像生成模型。该模型可生成与该领域头部企业 Midjourney 媲美的高质量图像。但由于对具有潜在问题的图像生成几乎不设限制，由此引发的争议不断发酵。

据相关行业20日消息，在社交媒体上可以轻易找到用 Grok 2生成的虚假图像，例如身穿纳粹军服的美国前总统 Donald Trump、只穿内衣的歌手 Taylor Swift 等。还出现了像叼着香烟的米老鼠这类涉及版权的角色图像。虽然这些内容可能构成名誉毁损或侵犯肖像权，但 xAI 迄今未采取实质性措施。

有分析认为，这是一种“噪音营销”，说法颇具说服力。社交媒体和网络社区上，使用 Grok 2 生成的图像正在快速扩散。Musk 在本月15日于“X”平台发文称，“Grok 是世界上最有趣的 AI”，更是火上浇油。Musk 在去年首次推出 Grok 时，就把“幽默感十足的回答”作为差异化卖点。由于是后来者，被认为有意通过制造话题来博取关注。

这一做法与谷歌的路线截然相反，同样引人注目。谷歌近期推出了可将文本转换为图像的 AI 工具“Imagen 3”。与前一代模型相比，它可以表现得更加细腻、风格更加多样，能够呈现诸如人手上的细微皱纹、用编织方式制作的象玩偶等复杂纹理。

利用 Google 的 Imagen 3 生成的图像 [来源=Google DeepMind 博客提供]

与 xAI 不同，谷歌大幅强化了安全防护装置。负责开发 Imagen 3 的 Google DeepMind 在长达32页的技术报告中，将大部分篇幅用于阐述安全性。根据这份报告，谷歌从训练数据源头开始，分多个阶段进行过滤，以避免生成有害图像，剔除了暴力或色情等内容。同时，还过滤掉由 AI 生成的图像或重复图像，以减少输出带有偏见的结果。谷歌也十分重视用于描述图像的说明文字（标题）。例如，“猪的图像”这一文本本身并无问题，但如果与某一特定种族的形象结合，就可能导致有害的输出，因此谷歌对与图像成对出现的文本进行了审查。谷歌还专门组建了负责验证 Imagen 3 安全性的红队。谷歌计划今后将 Imagen 3 集成到其大型语言模型（Large Language Model）Gemini，以及生产力软件 Workspace 等产品中。

谷歌之所以将重点放在安全性上，是因为此前曾因图像错误而饱受批评。今年2月，Gemini 曾生成诸如“黑皮肤的教皇”“身穿第二次世界大战德国军服的印第安人”等歪曲事实的图像，引发巨大争议，不仅打击了人工智能的可信度，也拖累了母公司 Alphabet 的股价。最终，谷歌不得不在 Gemini 中关闭图像生成功能。外界普遍认为，谷歌此次进一步强化安全装置，是为避免类似问题重演。

业界正关注，两家公司截然相反的战略将带来怎样的结果。图像生成 AI 近来被视为大型科技企业实现盈利的关键之一。图像生成不仅在电影、游戏等娱乐产业中用途广泛，在企业广告、市场营销领域的应用场景也极为丰富。按回答速度或长度区分是否收费的文本生成模型难以做出明显差异，而图像生成服务在收费方面则相对阻力较小。Grok 2 目前仅向每月支付7美元及以上的 X 高级订阅用户开放。OpenAI 的图像生成模型 DALL·E 3 在免费版本中每天最多只提供2次生成机会，超过部分则需在付费版本中使用。