假图风波自招的 Groq2
与强化安全性的谷歌截然相反的路线
哪种策略更奏效引发市场关注
由 Elon Musk 这位特斯拉创始人创立的 xAI,向图像生成人工智能(AI)市场发起挑战。其公开了人工智能聊天机器人“Grok 2”的测试版,并新增图像生成功能,采用的是德国初创公司 Black Forest Labs 的图像生成模型。该模型可生成与该领域头部企业 Midjourney 媲美的高质量图像。但由于对具有潜在问题的图像生成几乎不设限制,由此引发的争议不断发酵。
据相关行业20日消息,在社交媒体上可以轻易找到用 Grok 2生成的虚假图像,例如身穿纳粹军服的美国前总统 Donald Trump、只穿内衣的歌手 Taylor Swift 等。还出现了像叼着香烟的米老鼠这类涉及版权的角色图像。虽然这些内容可能构成名誉毁损或侵犯肖像权,但 xAI 迄今未采取实质性措施。
有分析认为,这是一种“噪音营销”,说法颇具说服力。社交媒体和网络社区上,使用 Grok 2 生成的图像正在快速扩散。Musk 在本月15日于“X”平台发文称,“Grok 是世界上最有趣的 AI”,更是火上浇油。Musk 在去年首次推出 Grok 时,就把“幽默感十足的回答”作为差异化卖点。由于是后来者,被认为有意通过制造话题来博取关注。
这一做法与谷歌的路线截然相反,同样引人注目。谷歌近期推出了可将文本转换为图像的 AI 工具“Imagen 3”。与前一代模型相比,它可以表现得更加细腻、风格更加多样,能够呈现诸如人手上的细微皱纹、用编织方式制作的象玩偶等复杂纹理。
与 xAI 不同,谷歌大幅强化了安全防护装置。负责开发 Imagen 3 的 Google DeepMind 在长达32页的技术报告中,将大部分篇幅用于阐述安全性。根据这份报告,谷歌从训练数据源头开始,分多个阶段进行过滤,以避免生成有害图像,剔除了暴力或色情等内容。同时,还过滤掉由 AI 生成的图像或重复图像,以减少输出带有偏见的结果。谷歌也十分重视用于描述图像的说明文字(标题)。例如,“猪的图像”这一文本本身并无问题,但如果与某一特定种族的形象结合,就可能导致有害的输出,因此谷歌对与图像成对出现的文本进行了审查。谷歌还专门组建了负责验证 Imagen 3 安全性的红队。谷歌计划今后将 Imagen 3 集成到其大型语言模型(Large Language Model)Gemini,以及生产力软件 Workspace 等产品中。
谷歌之所以将重点放在安全性上,是因为此前曾因图像错误而饱受批评。今年2月,Gemini 曾生成诸如“黑皮肤的教皇”“身穿第二次世界大战德国军服的印第安人”等歪曲事实的图像,引发巨大争议,不仅打击了人工智能的可信度,也拖累了母公司 Alphabet 的股价。最终,谷歌不得不在 Gemini 中关闭图像生成功能。外界普遍认为,谷歌此次进一步强化安全装置,是为避免类似问题重演。
业界正关注,两家公司截然相反的战略将带来怎样的结果。图像生成 AI 近来被视为大型科技企业实现盈利的关键之一。图像生成不仅在电影、游戏等娱乐产业中用途广泛,在企业广告、市场营销领域的应用场景也极为丰富。按回答速度或长度区分是否收费的文本生成模型难以做出明显差异,而图像生成服务在收费方面则相对阻力较小。Grok 2 目前仅向每月支付7美元及以上的 X 高级订阅用户开放。OpenAI 的图像生成模型 DALL·E 3 在免费版本中每天最多只提供2次生成机会,超过部分则需在付费版本中使用。
PaiOn Corporation 共同代表 Jeon Chanseok 表示:“虽然各个细分领域情况不同,但只要与图像相关的行业,大多已经在评估是否采用生成式 AI,或者已经正式引入,足见这一市场的规模已大幅扩大。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。