豆包这玩意谁研究的呢,这视频模型真有点攒劲

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲

文章图片

豆包这玩意谁研究的呢,这视频模型真有点攒劲


有一说一 , 哥们是真不知道这个月什么情况 。
这些个厂商们就像扎堆看了同一本黄历一样 , 都赶着这个月搞事情 。
12 号好几家连着开发布会咱就不多说了 , 上周又是参加了一堆大会 , 看了各种大模型纷纷上新 , 给哥们都逛累了 。
结果到了今天 , 您猜怎么着 , 字节又官宣了他家的新 AI, 也就是他家豆包这次支持可以视频生成了 , 而且效果极其强横 。
也就是说 , 憋了这么久 , 这个月底出场的字节开始上菜了 , 而且一来就是硬菜 。

口说无凭 , 直接来给大家看效果:
比如这个官方演示的 “ 红尘做伴活的潇潇洒洒 ” 场景 , 这视频里多人、复杂表情的表现力可以说相当自然了 , 虽然是马丁老爷子的老粉丝 , 我也只能说这段权游味是相当重 。
也就是这玩意只有 10 秒而且慢的一匹 , 不然真就给它骗过去当成影视片段了 。

还有这段 , 骑火箭的男人冲向世界最高城礼堂引发大爆炸 , 这段分镜 , 前后镜头的画风一致性都很连贯;中间那个男人紧闭双眼紧张赴死的镜头也特灵魂 , 画面感拉满了 。。。

不过这玩意你要光看官方视频吧 , 好像感受不到它特别牛的地方 , 有时候这些AI的宣传资料就跟方便面外包装一样 , 看上去是一回事 , 拆开以后又是另一回事 。
而且视频生成这个上面 ,p 图微调的事也不是没有过 , 还有的视频大模型光放宣传片 , 到现在也不让大家上手用 , 跟扇贝似的都玩成期货了 。
所以尽管看完这些演示视频以后 , 我们觉得豆包可能真有两下子 , 但到底货对不对板 , 咱还是得上手试一试才知道 。

这不 , 那边发布会一结束 , 世超第一时间就薅来了这个 PixelDance(像素跳动)模型的内测 , 先安排上咱们 AI 测评的传统保留项目 , 有请我司老员工火锅给大伙儿亮个相 。
喂给模型一张火锅的照片 , 再输入提示词 “ 狗狗站起 , 叼起身边的娃娃离开画面 ”。

按照我们以往用火锅测评一些视频模型的经验 , 不出 2 秒 , 锅哥的身体和脸就会开始变形 , 之前甚至还有过把火锅变成拉布拉多的案例 。。
但你猜怎么着?
这次的视频 , 几乎没有出现太多画面抖动、掉帧和闪烁变形的情况 。
火锅起身的动作一气呵成 , 仔细看它把兔子玩偶拽过来的瞬间 , 玩偶耳朵的抖动 , 脚往下踩的时候垫子上的凹陷 , 这些细节大伙儿品品 , 火锅来了都得直呼:稳啊老哥!

如果不是后面几秒火锅的毛发纹理露出了破绽 , 这视频能打个 9 分吧 。
接着 , 我们又试了让不少视频生成模型屡战屡败的光影效果 。
提示词 “ 摩托车飞速行驶在道路上 , 街景迅速后退 ”

街景变化流畅 , 光线的明暗变化也没啥违和感 , 特别是大楼灯光和地板上的倒影都一一对应上了 。
非要挑毛病的话 , 就是从对向开过来的车 , 画面没太控制好 。

再整个经典的吃播 , 这回的提示词是 “ 正对镜头的男人张嘴吃下筷子上的食物 ”。 描述相对比较精确 , 基本就是让模型指哪打哪 。

而 PixelDance 模型也确实没让我们失望 , 拿筷子的动作很熟练 , 食物是真吃进了嘴里 , 面部也没有因为咀嚼的动作而变形 。 即使提示词里没有 cue 到后面的一群人 , 但模型还是让大伙儿都动了起来 。
就是吧 , 这嚼东西的动作是不是有点忒刻意了 。。。

其实测到这里 , 我们对 PixelDance 模型的水平已经有点底了 。 但为了让测试更全面些 , 咱还是多试几次 。
来看这张世超随手拍下的晚霞 , 提示词是 “ 远处的天空 , 飞来一条黑色的龙 , 距离镜头越来越近 ”, 稍微复杂了那么一丢丢 。

后面的天空、一排房子、往镜头飞来的黑龙 , 要素基本齐全 , 镜头还会慢慢仰拍跟随 。
不过原本照片左下角应该是桥边的栅栏 , 不知道是不是因为太黑 , 导致模型没识别出来 , 小小变形了一下 。

还有这个编辑部同事下班整点小麦果汁的视频 , 最让世超震惊的 , 就是杯子里 8+1 的效果 。

因为碰杯导致的晃动、还有手部动作让液体往右边倾斜 , 好家伙 , 哥们好像真找到一个理解物理规律的模型了 。。
而且手臂的屈伸、关节的活动 , 似乎也是符合人体生理构造的 。
不过瑕疵也不是没有 , 比如手里的酒喝着喝着 , 突然就喂到了隔壁同事嘴里 , 桌面的杯垫不知道咋回事就变成一张纸了 。
相信看到这 , 大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判 。
虽说还达不到炸裂的程度 , 但也肯定算得上是第一梯队了 , 而且 PixelDance 模型在画面稳定性、一致性上 , 也确实堪称独步 。
不过对世超来说 , 其实并不是非常出乎意料 。

主要其实不仅是我们 , 很多人对豆包在视频能力上的预期都挺高的 。
虽然慢了一丢丢 , 但背靠视频行业出身的抖音 , 再加上对基础大模型的投入 , 豆包想依靠这些优势来追迎头赶上 , 实际也是符合大家认知的 。
换句话说 , 豆包做出这个本身就意料之中 , 更别说人家掏出来的东西还明显是第一档 。

不过嘛 , 字节在这个时候掏出豆包视频模型 , 其实挺及时的 , 刚好踩在视频大模型发展的节点上 。
光是今年 ,6 月份即梦 AI 就在 AIGC 短剧《 三星堆:未来启示录 》中亮相了 ,7 月 13 日快手也上线了 AIGC 短剧《 山海奇镜 》;
而在影视圈 ,AI 制作的声量也被喊的越来越响 , 前有 AI 还原 27 岁成龙的《 传说 》 , 后有暑期档的漫改电影《 异人之下 》 , 这也意味着视频生成大模型和影视行业某种意义上算双向奔赴 。
东吴证券测算 , 国内 AI 视频潜在的行业空间可能达到 5800 亿元人民币以上 , 而在全 AI 模式下 , 影视剧的制作成本相较于传统模式 , 成本能降低超过 95%。

但这种趋势也会带来新的问题 , 比如模型训练需要的素材得更真实 , 那这些视频素材可能会有版权和隐私安全的问题 。
另一方面 , 影视级视频生成模型也需要 AI 厂商本身有影视相关的经验 , 比如这次的豆包 , 就综合了剪映等专业剪辑和调色软件的经验 , 来做出更接近影视的光影、色彩效果 。
其他视频生成模型如果要在这方面继续进步 , 可能也需要和影视行业联系更加紧密才行 。

总之 , 豆包这波交出的卷子值得一个高分 , 但对于视频模型来说这还远远不是终点 , 期待国产大模型接下来的表现 。
顺便 ,Sora 怎么还不出来吱个声?。 吭俨桓没苹ú硕家沽?。
【豆包这玩意谁研究的呢,这视频模型真有点攒劲】

    推荐阅读