语言: English | 简体中文 | 繁體中文

GPT-4o吉卜力全网玩疯了,但它真的很强吗? | Finance


GPT-4o吉卜力全网玩疯了,但它真的很强吗?

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
ChatGPT 的新 AI 图像生成功能上线仅两天,社交媒体上便已充斥着以日本动画工作室吉卜力风格的 AI 生成梗图,埃隆·马斯克、《指环王》和美国总统唐纳德·特朗普都没“逃过”,甚至 OpenAI 首席执行官萨姆·奥尔特曼也将他的新头像设置为吉卜力风格的图片。(吉卜力工作室以制作《龙猫》和《千与千寻》等热门影片而闻名。)

大量用户正在将现有的图像上传到 ChatGPT,并要求聊天机器人以新的风格重新创作这些图像。今天,奥尔特曼在 X 上发文表示:“看到大家如此喜爱 ChatGPT 的图像功能非常有趣,但我们的 GPU 快扛不住了。”虽未具体说明限制次数,但 Altman 称该措施不会持续太长时间,因为他们正在尝试提升处理海量请求的效率,免费用户将“很快”能每天最多生成三张图像。




虽然后续 OpenAI 又宣布了对 GPT-4o 进行了更新,但显然人们的注意力还在“玩图”上。

“我认为,这个功能是过去半年里 OpenAI 发布的 GPT-4o 中最有价值的一个,它确实非常炸裂。相比之下,正式上线的 Sora 以及后来连续 12 天的直播所展示的内容,大多都没有超出人们的预期。”原快手可图大模型负责人李岩说道。

与 SD 等模型比,

GPT-4o 赢在了哪里?


“昨天还在看 SD 教程,今天发现白看了……”知名开发者 Jimmy Cheung 发帖说道,“今天情绪非常低落,压力非常大,我不清楚我现在做什么,是从现在开始到将来都还有价值的。”



李岩表示,这次 GPT-4o 火爆的关键在于实现了对话式图像生成。


实际上,基于自然语言指令的图像编辑能力之前已经有了,比如字节 SeedEdit 和 Google Gemini 2.0 都具备相似能力。但在实际生成过程中,指令响应能力没有那么强,效果做得没有那么好。

例如在一致性保持方面,当要求去除背景中的某个物体时,模型可能还去掉了其他的东西;或者在对人物进行特定修改时,最终效果可能是不像原来的人了。此外,还存在指令不响应的问题,比如要求添加某些元素时未能执行。

但这次 GPT-4o 的交互方式所达到的文本跟图像的响应是非常精准的,大大超出了大家的预期。

李岩分析,虽然 OpenAI 没有发布详细的技术报告,但有一点非常明确:他们一定采用了自回归框架(Autoregressive Model, AR),只有自回归框架才能实现如此自然的图文交互效果。后续大概率也接入了 decode 模块后再做图像生成,但其整体框架已经完全统一到了自回归框架之下。
您的点赞是对我们的鼓励     好新闻没人评论怎么行,我来说几句
Prev Page1234Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL

    延伸阅读

    _RELATED_NEWS_MORE

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    Security Code *:
    Please input the number which is shown on the following picture
    The Captcha image
      (Please input the number which is shown on the following picture)