谷歌: 憋了幾個禮拜,谷歌開發者大會信息量爆炸了

2025-05-22 | 來源: 差評 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

Transformer 架構雖然用了這麼久，但計算成本高，速度慢，苦於沒啥替代手段，大家只好將就用著。

這次谷歌用擴散模型對大模型的底層架構發起挑戰，如果未來 Gemini Diffusion 在表現上還有上升的空間，這可能是一次顛覆性的革新。

大模型說完，再看看多模態生成這邊，花樣就更多了。

Imagen 4、Veo 3、Lyria 2 接連推出，圖片、視頻、音頻生成，谷歌全都要。

從官方的例子可以看出，Imagen 4 遵循提示詞的能力滿分，能生成高達 2k 分辨率的圖片，畫面清晰，細節到位。

在 Imagen 3 的基礎上，Imagen 4 的整體圖像質量更高，對指令遵循的能力更強，速度更快。

視頻方面，Veo 3 不僅在 Veo 2 的基礎上質量升級，還是首款帶音頻的視頻模型，不僅自帶對話，如果需要，也可以來點背景音樂。

結合生成的提示詞來看官方的案例，Veo 3 對場景氛圍、對話語氣和人物動作表情的理解都很出色，生成的視頻非常自然。

最後是 Lyria 2 的音頻生成，同樣很驚艷。

不得不說，Lyria 2 生成的這段秘魯風格的舞曲，鼓點、電吉他、貝斯相輔相成，節奏明快，旋律流暢，絲毫沒有 AI 痕跡。

"搶跑"GPT-5!谷歌發布最強AI全家桶

Google大會一文讀懂:用AI革自己的命

谷歌警告:Gmail現高仿釣魚郵件(圖

目前，Imagen 4 和 Lyria 2 已經在谷歌的 Vertex AI 平台上線，Veo 3 可以加入 waitlist，感興趣的差友可以去體驗一下。

如果說咱上面看過的都屬於零部件，而下面要說的，是谷歌怎麼把這些零件組合起來，融入產品，把 AI產品賦能體現得淋漓盡致。

首當其沖的，就是谷歌在搜索業務上推出的 AI mode。

自 2022 年 ChatGPT 問世，大模型對谷歌的核心搜索業務來了一輪狂風巨浪的沖擊。

打不過就加入，谷歌這回直接把 Gemini 嵌進傳統搜索，利用大模型的多模態和推理能力，把用戶想要的整理好，直接喂到嘴裡。

AI mode 底層使用谷歌的查詢扇出技術 (query fan-out)，可以把問題分解成子主題，同時進行多個查詢，深入互聯網尋找答案。

谷歌表示，加入了 AI 概覽以後，用戶對搜索的內容滿意度更高，使用頻率上升了 10%，這是十年來搜索領域最成功的探索之一。

看來傳統搜索加點 AI，還是能挽回用戶的心的。

除了搜索，谷歌還把多模態生成技術揉一揉，用 Veo + Imagen + Gemini 搓出了一個電影制作工具 Flow。