GPT-4o吉卜力全網玩瘋了,但它真的很強嗎?

2025-03-28 | 來源: InfoQ | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

ChatGPT 的新 AI 圖像生成功能上線僅兩天，社交媒體上便已充斥著以日本動畫工作室吉卜力風格的 AI 生成梗圖，埃隆·馬斯克、《指環王》和美國總統唐納德·特朗普都沒“逃過”，甚至 OpenAI 首席執行官薩姆·奧爾特曼也將他的新頭像設置為吉卜力風格的圖片。（吉卜力工作室以制作《龍貓》和《千與千尋》等熱門影片而聞名。）

大量用戶正在將現有的圖像上傳到 ChatGPT，並要求聊天機器人以新的風格重新創作這些圖像。今天，奧爾特曼在 X 上發文表示：“看到大家如此喜愛 ChatGPT 的圖像功能非常有趣，但我們的 GPU 快扛不住了。”雖未具體說明限制次數，但 Altman 稱該措施不會持續太長時間，因為他們正在嘗試提升處理海量請求的效率，免費用戶將“很快”能每天最多生成三張圖像。

雖然後續 OpenAI 又宣布了對 GPT-4o 進行了更新，但顯然人們的注意力還在“玩圖”上。

“我認為，這個功能是過去半年裡 OpenAI 發布的 GPT-4o 中最有價值的一個，它確實非常炸裂。相比之下，正式上線的 Sora 以及後來連續 12 天的直播所展示的內容，大多都沒有超出人們的預期。”原快手可圖大模型負責人李岩說道。

與 SD 等模型比，

GPT-4o 贏在了哪裡？

劉國梁辭職真相殺瘋全網,竟然是這個原因?

美國火辣女嫌通緝照 "胸"狠畫面全網暴動

在國內"火爆全網"的6部頂級韓劇,每部都百看不厭,你看過幾部

“昨天還在看 SD 教程，今天發現白看了……”知名開發者 Jimmy Cheung 發帖說道，“今天情緒非常低落，壓力非常大，我不清楚我現在做什麼，是從現在開始到將來都還有價值的。”

李岩表示，這次 GPT-4o 火爆的關鍵在於實現了對話式圖像生成。

實際上，基於自然語言指令的圖像編輯能力之前已經有了，比如字節 SeedEdit 和 Google Gemini 2.0 都具備相似能力。但在實際生成過程中，指令響應能力沒有那麼強，效果做得沒有那麼好。

例如在一致性保持方面，當要求去除背景中的某個物體時，模型可能還去掉了其他的東西；或者在對人物進行特定修改時，最終效果可能是不像原來的人了。此外，還存在指令不響應的問題，比如要求添加某些元素時未能執行。

但這次 GPT-4o 的交互方式所達到的文本跟圖像的響應是非常精准的，大大超出了大家的預期。

李岩分析，雖然 OpenAI 沒有發布詳細的技術報告，但有一點非常明確：他們一定采用了自回歸框架（Autoregressive Model, AR），只有自回歸框架才能實現如此自然的圖文交互效果。後續大概率也接入了 decode 模塊後再做圖像生成，但其整體框架已經完全統一到了自回歸框架之下。