国产AI训练,为什么要用外国视频?

2024-05-14 | 来源: 酷玩实验室 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

生成式AI的这股浪潮翻涌到现在，已经一年多了。

如果要论在这股浪潮中，哪一类模型是AI领域“王冠上的宝石”，那一定是文生视频模型莫属。

从技术层面来说，Sora、Vidu这列视频大模型，最核心的价值，在于它们实现了跨媒介的信息合成与创造，从而形成了文本、图像、与视频等不同模态的“大一统”。

而这样的“大一统”，或许正是人类通向AGI的关键。

在这个“大一统”的框架下，数据不再被单一模态所限，而是作为多维度信息的综合体被理解和运用。

正如图灵奖得主，AI三巨头之一的Yann LeCun所提出的“世界模型”理论所述，现如今的 LLM （大模型）都只是在文本上训练的，因此只能非常粗浅地理解世界。

即使 LLM 凭借大量参数和海量训练数据，能展现出过人的文本理解能力，但它们本质上捕获的依然只是文本的统计规律，并不真正理解文本在现实世界中所代表的含义。

而如果模型能使用更多感官信号（比如视觉）学习世界的运作模式，那么就能更加深刻地理解现实。从而感知

那些无法仅凭文字传达的规律、现象。

AI三巨头之一 Yann LeCun

《大明王朝 1566》里,为什么海瑞要跟他母亲睡一个房间?

为什么汽水瓶是圆的牛奶盒却是方的

《父母爱情》在大学生稀缺的年代,为什么安然安诺都能考上大学?

从这个角度来说，谁能率先通过多模态的世界模型，让AI掌握现实物理的规律，谁或许就能率先突破文本和语义的限制，在通往AGI的路上先登上一个大台阶。

这也是为什么，OpenAI当前如此倾注于Sora的原因。

虽然前段时间，Vidu的出现给国产视频技术长脸了，在Sora这样的行业霸主面前挺直了腰板，但大家伙儿在欢欣鼓舞的同时，细心一看Vidu的演示视频，发现个挺有意思的事儿：

里面老外的脸蛋特别多。

这一下子，可让大家伙儿琢磨开了，感觉像是无意中扯出了咱们在收集视频资料这块儿的一个小辫子——高质量数据不足。

数据之困

如果说，现阶段真有制约视频生成模型发展的硬门槛，那么这样的门槛，无非就是算力、算法与数据。

而其中的前两者，实际上只要有钱，有人才，实际上都能搞得定，唯独数据，一旦落下了，后面想追平，可就得费老大劲儿了。就像身高一样，拉开了就很难追赶。

讲真，虽然从绝对总量来看，中文互联网上视频内容也不少了，但其中真正可用于AI训练的高质量数据，却并不如外网丰富。