語言: English |简体中文 |繁體中文

GPT-4o吉卜力全網玩瘋了,但它真的很強嗎? | 溫哥華財稅中心


GPT-4o吉卜力全網玩瘋了,但它真的很強嗎?

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
ChatGPT 的新 AI 圖像生成功能上線僅兩天,社交媒體上便已充斥著以日本動畫工作室吉卜力風格的 AI 生成梗圖,埃隆·馬斯克、《指環王》和美國總統唐納德·特朗普都沒“逃過”,甚至 OpenAI 首席執行官薩姆·奧爾特曼也將他的新頭像設置為吉卜力風格的圖片。(吉卜力工作室以制作《龍貓》和《千與千尋》等熱門影片而聞名。)

大量用戶正在將現有的圖像上傳到 ChatGPT,並要求聊天機器人以新的風格重新創作這些圖像。今天,奧爾特曼在 X 上發文表示:“看到大家如此喜愛 ChatGPT 的圖像功能非常有趣,但我們的 GPU 快扛不住了。”雖未具體說明限制次數,但 Altman 稱該措施不會持續太長時間,因為他們正在嘗試提升處理海量請求的效率,免費用戶將“很快”能每天最多生成三張圖像。




雖然後續 OpenAI 又宣布了對 GPT-4o 進行了更新,但顯然人們的注意力還在“玩圖”上。

“我認為,這個功能是過去半年裡 OpenAI 發布的 GPT-4o 中最有價值的一個,它確實非常炸裂。相比之下,正式上線的 Sora 以及後來連續 12 天的直播所展示的內容,大多都沒有超出人們的預期。”原快手可圖大模型負責人李岩說道。

與 SD 等模型比,

GPT-4o 贏在了哪裡?


“昨天還在看 SD 教程,今天發現白看了……”知名開發者 Jimmy Cheung 發帖說道,“今天情緒非常低落,壓力非常大,我不清楚我現在做什麼,是從現在開始到將來都還有價值的。”



李岩表示,這次 GPT-4o 火爆的關鍵在於實現了對話式圖像生成。


實際上,基於自然語言指令的圖像編輯能力之前已經有了,比如字節 SeedEdit 和 Google Gemini 2.0 都具備相似能力。但在實際生成過程中,指令響應能力沒有那麼強,效果做得沒有那麼好。

例如在一致性保持方面,當要求去除背景中的某個物體時,模型可能還去掉了其他的東西;或者在對人物進行特定修改時,最終效果可能是不像原來的人了。此外,還存在指令不響應的問題,比如要求添加某些元素時未能執行。

但這次 GPT-4o 的交互方式所達到的文本跟圖像的響應是非常精准的,大大超出了大家的預期。

李岩分析,雖然 OpenAI 沒有發布詳細的技術報告,但有一點非常明確:他們一定采用了自回歸框架(Autoregressive Model, AR),只有自回歸框架才能實現如此自然的圖文交互效果。後續大概率也接入了 decode 模塊後再做圖像生成,但其整體框架已經完全統一到了自回歸框架之下。
點個贊吧!您的鼓勵讓我們進步     這條新聞還沒有人評論喔,等著您的高見呢
上一頁1234下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁中閱讀全文

    猜您喜歡

    您可能也喜歡

    當前評論

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *:
    安全校驗碼 *:
    請在此處輸入圖片中的數字
    The Captcha image
      (請在此處輸入圖片中的數字)