| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

原華為天才少年4萬字演講,談談AI


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
我認為,多模態大模型有三條路。第一條是用多模態數據端到端預訓練的模型,Google 的 Gemini 就是這麼做出來的,最近 Berkeley 的 LVM 也是端到端多模態的,我認為這是最有前景的一個方向。當然這條路需要非常多的計算資源。


現在還有一種工程化的方案,是用膠水層去粘接已經訓練好的模型,比如目前圖片理解做得最好的 GPT-4V,還有學術界開源的 MiniGPT-4/v2,LLaVA 等等。膠水層是我的叫法,專業名詞叫做 projection layer,比如右上角這個 MiniGPT 架構圖中,標著 “” 的 6 個框就是 projection layer。

輸入的圖片、語音、視頻分別通過不同的 encoder 去做編碼,編碼結果經過 projection layer 映射到 token,輸入給 Transformer 大模型。大模型的輸出 token 經過 projection layer,分別映射到圖片、語音、視頻的解碼器,這樣就可以生成圖片、語音、視頻了。


在這個膠水層粘接的方案裡,可以看到 encoder、decoder 和大模型上面都標著 “?”,那就是凍結權重的意思。使用多模態數據訓練的時候,只修改 projection layer 部分的權重,不修改其他部分的權重,這樣訓練的成本就能大大降低,只要幾百美金就能訓練出一個多模態大模型。

第三條路是第二條路推向極致的方案,連 projection layer 都不要了,直接用文本去粘接 encoder、decoder 和文本大模型,不需要做任何訓練。例如語音部分就是先做語音識別,把語音轉換成文字輸入給大模型,然後再把大模型的輸出送給語音合成模型生成音頻。不要小看這種聽起來很土的方案,在語音領域,目前這種方案還是最靠譜的,現有的多模態大模型在識別和合成人類說話語音方面都不太行。



Google Gemini 的語音對話響應延遲只有 0.5 秒,這是一個真人都很難達到的延遲,真人的延遲一般在 1 秒左右。我們現有的語音聊天產品,比如 ChatGPT,語音對話延遲高達 5~10 秒。因此大家才會覺得 Google Gemini 的效果非常驚艷。


那麼這個效果是不是很難做出來呢?其實我們現在用開源的方案就可以做出來 2 秒以內的語音對話響應延遲,而且還包含實時視頻理解。

我們先不考慮視覺部分,先只看語音部分。在一個語音電話裡,收到語音後首先做停頓檢測,發現用戶說話結束了,就把這一段音頻送到 Whisper 去做語音識別。停頓檢測比如人聲結束後等待 0.5 秒,然後 Whisper 語音識別大概需要 0.5 秒。

然後送到文本模型去做生成,用開源模型生成的速度其實非常快,比如最近比較火的 Mixtral 8x7B MoE 模型,輸出第一個 token 只需要 0.2 秒,每秒輸出 50 個 token 不是問題,那麼第一句話假設有 20 個 token,就需要 0.4 秒。第一句話生成完了,就交給語音合成模型去合成語音,VITS 只需要 0.3 秒。


加上 0.1 秒的網絡時延,這樣端到端算下來只要 1.8 秒的延遲,已經比市面上的大多數實時語音電話產品好很多了。比如 ChatGPT 語音電話的延遲是 5~10 秒。而且我們的方案中,停頓檢測和語音識別部分的延遲還有優化空間。

我們再看 Google Gemini 演示的視頻理解場景。

因為我們現在的多模態模型輸入的基本都是圖片,而不是流式視頻,所以首先需要把視頻變成圖片,截取關鍵幀。比如每 0.5 秒截取一幀,這裡面就有平均 0.3 秒的延遲。圖片可以直接送進 MiniGPT-v2 或者 Fuyu-8B 這樣的開源多模態模型。但是由於這些模型比較小,實際用起來效果並不是很好,跟 GPT-4V 差距比較大。

因此我們可以采取傳統 CV 與多模態大模型相結合的方案,用 Dense Captions 這個技術識別出圖片中的所有物體及其位置,並且用 OCR 識別圖片中的所有文本。再把 OCR 結果,Dense Captions 的物體識別結果作為原始圖片的補充文字,都輸入到 MiniGPT-v2 或者 Fuyu-8B 這種多模態大模型裡面。對於菜單、說明書一類的圖片,OCR 的作用是非常大的,因為單靠多模態大模型經常識別不清楚大塊文字。
您的點贊是對我們的鼓勵     這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
      大家正在圍觀
    加國GICs利率全走高 儲戶比房東爽
    谷愛凌豪宅前堆垃圾 扯出鄰裡大戲
    溫村出行巨變!南下火車邊境免停車
    越住越不幸福?溫村瘋狂增密引爭議
    大溫這個區未來建房或禁挖地下室
    加國大都市學校關閉潮:育兒太難了
    夏天這款全能水果 被營養師吹上天
    Kirkland這樣霸架 Costco選品太狠
    去Abbotsford機場超方便 很多方式
    平時進不去 溫村隱藏豪宅開放參觀
      同類熱門新聞
    她是北舞校花,緋聞滿身,被質疑害
    這只是是冰山一角:連環下藥強奸犯
    是否旅行常客 空姐根據登機一習慣
    《莫離》郭妗五箭穿心!扶兒子上位
    女生被逼全裸跳河 她的霸凌罪行曝
    白鹿連炸兩部央視劇:從瘋颯女官到
    《人民的名義》假如祁同偉上位副
    《主角》大結局:99%的觀眾都被騙
    陳岩石那麼正面角色,為啥他兒子陳
    接班4年虧損超10億 "90後"海歸董
      隨時閱讀新聞

    加西網微信

    大溫優惠小紅書

    溫哥華地產中心微信

    Android: 加西網
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0294 秒 and 4 DB Queries in 0.0065 秒