國產AI訓練,為什麼要用外國視頻?

2024-05-14 | 來源: 酷玩實驗室 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

生成式AI的這股浪潮翻湧到現在，已經一年多了。

如果要論在這股浪潮中，哪一類模型是AI領域“王冠上的寶石”，那一定是文生視頻模型莫屬。

從技術層面來說，Sora、Vidu這列視頻大模型，最核心的價值，在於它們實現了跨媒介的信息合成與創造，從而形成了文本、圖像、與視頻等不同模態的“大一統”。

而這樣的“大一統”，或許正是人類通向AGI的關鍵。

在這個“大一統”的框架下，數據不再被單一模態所限，而是作為多維度信息的綜合體被理解和運用。

正如圖靈獎得主，AI三巨頭之一的Yann LeCun所提出的“世界模型”理論所述，現如今的 LLM （大模型）都只是在文本上訓練的，因此只能非常粗淺地理解世界。

即使 LLM 憑借大量參數和海量訓練數據，能展現出過人的文本理解能力，但它們本質上捕獲的依然只是文本的統計規律，並不真正理解文本在現實世界中所代表的含義。

而如果模型能使用更多感官信號（比如視覺）學習世界的運作模式，那麼就能更加深刻地理解現實。從而感知

那些無法僅憑文字傳達的規律、現象。

AI三巨頭之一 Yann LeCun

看完肖戰飾演的《藏海傳》,為什麼還需要再看一遍呢?

《大明王朝 1566》裡,為什麼海瑞要跟他母親睡一個房間?

溫家寶在政壇清洗中,為什麼能三朝不倒

從這個角度來說，誰能率先通過多模態的世界模型，讓AI掌握現實物理的規律，誰或許就能率先突破文本和語義的限制，在通往AGI的路上先登上一個大台階。

這也是為什麼，OpenAI當前如此傾注於Sora的原因。

雖然前段時間，Vidu的出現給國產視頻技術長臉了，在Sora這樣的行業霸主面前挺直了腰板，但大家伙兒在歡欣鼓舞的同時，細心一看Vidu的演示視頻，發現個挺有意思的事兒：

裡面老外的臉蛋特別多。

這一下子，可讓大家伙兒琢磨開了，感覺像是無意中扯出了咱們在收集視頻資料這塊兒的一個小辮子——高質量數據不足。

數據之困

如果說，現階段真有制約視頻生成模型發展的硬門檻，那麼這樣的門檻，無非就是算力、算法與數據。

而其中的前兩者，實際上只要有錢，有人才，實際上都能搞得定，唯獨數據，一旦落下了，後面想追平，可就得費老大勁兒了。就像身高一樣，拉開了就很難追趕。

講真，雖然從絕對總量來看，中文互聯網上視頻內容也不少了，但其中真正可用於AI訓練的高質量數據，卻並不如外網豐富。