拿下世界第一,中國AI大模型創下一紀錄

2025-05-16 | 來源: 中時新聞網 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

中國大陸網絡巨頭騰訊16日正式發布AI業內首個毫秒級回應的即時生圖大模型——混元圖像2.0（Hunyuan Image2.0），此一即時生圖大模型已在在騰訊混元官方網站上線，並對外開放注冊體驗。該模型主要有2大特點：即時生圖、超寫實畫質。

據《快科技》報道，騰訊混元圖像2.0相比前代模型，其參數量提升了一個數量級，得益於超高壓縮倍率的圖像轉碼器以及全新擴散架構，其生圖速度顯著快於行業領先模型。

報道指出，在同類商業產品每張圖推理速度需要5到10秒的情況下，騰訊混元可實現“毫秒級”回應，支持用戶可以一邊打字或者一邊說話一邊出圖，改變了傳統“抽卡—等待—抽卡”的方式。

除了速度快以外，騰訊混元圖像2.0模型圖像生成品質提升明顯，通過強化學習等演算法以及引入大量人類美學知識對齊，生成的圖像可有效避免AIGC圖像中的“AI味”，真實感強、細節豐富、可用性高。

在圖像生成領域專門測試模型復雜文本指令理解與生成能力的評估基准GenEval（Geneval Bench）上，騰訊混元圖像2.0模型准確率超過95%，遠超其他同類模型。

美國防戰略:遏阻中國,摧毀台積電是必要之舉

在迪拜建全新川普大廈超豪華曝光耗資$10億破紀錄

《無盡的盡頭》為什麼能拿下豆瓣高分8.3?｜對話主創

騰訊表示，騰訊混元圖像2.0引入多模態大語言模型（MLLM）作為文本編碼器，配合自研的結構化caption系統，不僅能理解你在說什麼，更能推測出你希望畫面“怎麼表達”。哪怕你一句話裡埋了三層含義，它也能一一拆解，再一筆一筆劃出來。

報道說，除了文字輸入，騰訊混元圖像2.0還可以通過語音直接輸入提示詞，系統將語音自動轉寫為文字，並在識別後即時生成圖像，適用於直播講解、移動創作等場景。

也可以上傳草圖作為參考，模型能自動識別線稿的結構與構圖邏輯，再結合提示詞內容補全光影、材質、背景等細節，迅速擴展成圖。