快手可灵，把压力给到了抖音剪映

快手可灵，把压力给到了抖音剪映

2024-11-11 02:30

快手可灵，把压力给到了抖音剪映

文|蓝洞商业赵卫卫

快手自研视频生成大模型「可灵」上线后，截至目前，申请使用的预约人数已经超过 6.5 万。一时间，引发行业轰动。

原因很简单，OpenAI 的文生视频 Sora 发布后，一直处于内测状态，外界无缘得以使用；而快手「可灵」发布即测试，通过快手旗下创作工具快影 App，用户可以直接申请公测，通过后可生成 2 分钟左右、分辨率为 1080p 的文生视频，视觉效果并不弱于 OpenAI 的 Sora。

文生视频需要耗费巨大的算力资源，对模型的能力维度要求更高，是国内大模型厂商尚未充分竞争的领地。让人意外的是，快手「可灵」成为国产大模型中最先「交卷」的一家，早于字节。

但快手这种领先优势并不会维持太久，「字节跳动的视频生成大模型也在内测中，估计很快（发布）了。」行业知情人士透露，预计跟快手类似，字节旗下视频生成大模型也将通过旗下创作工具剪映最先上线。

此外，就在「可灵」上线一周后的 6 月 13 日，Luma AI 发布最新文生视频模型 Dream Machine，向所有用户免费开放使用，其效率可以达到每 120 秒就能生成 120 帧画面，还能快速生成 5 秒钟的电影级别视觉效果的视频片段，此外，Luma的模型超越快手可灵的地方，还有丰富的美学风格选项。

更多竞争的对手正在赶来的路上。「6月底之前，大模型厂商都会不断放出 Sora 类模型产品，文生视频和图生视频大模型将遍地开花。」大模型行业分析人士认为，此前各家大模型厂商都具备了视频生成能力，只是碍于算力成本以及视频效果尚未全面优化，所以并未全面铺开。

大模型之战，从技术卷到应用，从百模大战卷到价格战，视频生成大模型会是下一个竞争高地吗？答案正在揭晓。弯道超车字节？

「可灵的效果是目前中国 Sora 类的第一，非常意外的是来自快手团队。」行业分析人士认为。

快手自研视频生成大模型「可灵」上线后，让外界意外的，一方面是视频生成的效果可以比肩 Sora；另外一方面是其来自快手团队。因为，在此前的大模型竞争中，快手并不是引人关注的第一梯队成员。快手此前发布通用大语言模型「快意」、文生图大模型产品「可图」，影响范围都很有限，直到如今的「可灵」。

从快手「可灵」公布的数据看，中国版 Sora 确实是其对标的目标。

从技术路线上看，快手「可灵」采用的是跟 Sora 雷同的 DiT 架构，用 Transformer 代替了传统扩散模型中基于卷积网络的 U-Net。快手大模型团队还自研了一款 3D 时空联合注意力模块和 3D VAE 网络，以实现更好的时空运动建模与更高效的隐空间编/解码。

而从「可灵」的官方网站上，可以一目了然其产品卖点。

最引人注意的是，可灵支持生成长达 2 分钟的 30 帧视频，分辨率最高 1080p，自由定制宽高比，这一点远超 Sora 和国内大模型厂商。而在生成视频的效果上，可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。

而从传播上，「可灵」也区别于以往国内大模型的发布，最先从国外社交媒体上引起关注，然后在国内热度升高，实现了「出口转内销」或者「墙内开花墙外香」的特点。

在推特上，对「可灵」的使用评价和评测非常广泛。

「感觉大家也别等 Sora 这种又贵又费时的工业级 AI 了，先可灵免费用起来。快手这次真是让人惊喜。」

「与国外的 Sora 视频生成大模型相比，中国大模型开发者更理解本土文化，大模型生成的内容也更能满足本土用户的需求。」

「下午充了一个快影的年费会员，好像就跳过了快手可灵的排队，直接可以通过更改 prompt 生成视频了，效果很惊艳呀。生成一个视频的时间，在 VIP 会员下，大概需要 3 分钟。」

正是靠着国外社交媒体的热度，「可灵」的热度水涨船高。发布一周之后，快手才正式在官方公众号上推荐这款产品，标题为「今天你‘可灵’了吗？」

事实上，腾讯和字节等互联网公司，同样拥有视频生成大模型，只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能，可以选择运镜类型、视频比例和运动速度，生成 3-6 秒的视频，但在视频呈现效果和时间长度上，并没有展示出比肩 Sora 的优势。

这也更凸显了快手「可灵」令人惊讶的优势，因为行业一直认为要对模型训练做扎实，本质上不存在弯道超车，如果基础模型做不好，文生文和文生图都做不好，何谈文生视频。但意外就在于，快手的视频大模型奇袭成功了。可灵背后的人

谁才是「可灵」背后的决定性人物？这可能是一个人才流动前仆后继的故事。

就在快手「可灵」正式发布的前几天，快手专家研究员王鑫涛对外做过一个《视频生成的初探及其可控性研究》学术分享，这被认为是快手内部对「可灵」大模型技术层面的思考，相关 PPT 也很快流传出来成为大模型行业研究的资料。

「可灵」发布之后，王鑫涛又出现在深圳的一次人工智能学术分享会中，王鑫涛提到在追赶 Sora 的过程中，面临的核心挑战在于，如何实现在长视频和长镜头中学习到物理规律，从而确保生成的视频具有高度的物理一致性。

因而这是王鑫涛认为最值得深入研究的问题，「传统上，AI 生成的视频往往局限于单一镜头，缺乏复杂场景下的连贯性和真实感。然而，Sora 却能在复杂的长视频中实现镜头的流畅切换，同时保持强大的三维、时序和物理一致性。」

事实上，王鑫涛入职快手的时间并不长，目前是快手视觉生成与互动中心的高级研究员，隶属于快手多模型与 AIGC 部门，负责视觉内容生成方面的研究。公开资料显示，去年他还是腾讯 AI 实验室的高级研究员，领导了视觉内容生成 (AIGC)方面的工作。

可以说，快手「可灵」奇袭的背后，离不开王鑫涛这样的腾讯前 AI 力量的贡献。

此前腾讯混元开源混元大模型时，就已经公开其具备文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。当时混元大模型文生图负责人芦清林就提到，不同模态之间的对齐是难点之一，混元想做视频和音频的同时生成，但要解决二者用一个模型输出的对齐有很大混淆。

而另外一方面，「可灵」出圈的背后，也意味着昔日快手 AI 团队成员的某种失落。

前快手技术副总裁王仲远，如今已经是北京智源人工智能研究院院长。去年 12月，快手组织架构大调整中，主站、电商与商业化三个事业部下属都拥抱了变化，而负责 AI 业务的王仲远不再担任任何职务。

仅仅半年前，王仲远作为快手 AI &用户增长业务负责人，在快手创作者大会上首次公布了快手 AIGC 的进展，其核心旨在提升短视频内容的创作力和生产力。当时快手已经开放了「可图」大模型产品，支持文生图和图生图两类功能，已上线 20 余种 AI 图像玩法。

整个 2023 年，是快手缺少 CTO 的一年，也是快手大模型组建团队和业务的落地之年。从组织架构上看，快手大模型团队隶属于快手社区科学线，而业务包含大语言模型、文生图大模型、视频生成大模型等多个方向，但大语言模型和文生图模型相比同行都乏善可陈。

中国版的 Sora 肯定也是王仲远的期待之一，只是不知道他如何看待「可灵」。

离开快手之后，王仲远代表智源研究院对外接受过采访，谈及 AGI(通用人工智能）正在加速到来，过去他觉得实现科幻片里超级人工智能的场景还有四五十年，现在他感觉可能再用四五年 AGI 就会诞生。

「Sora 的出现也是一个划时代的时刻，它真正的价值不是文字生成精美的视频，而是说明大模型可能具备了理解三维世界的能力。换句话说，Sora 初步展现了世界模型上的 scaling law（规模法则）。」王仲远认为。第一能维持多久？

当下的快手「可灵」备受好评，但国内 Sora 第一的位置能维持多久？

「可灵」唯一的使用渠道就是快手创作工具快影 App，但快影 App 的下载数据并没有太大的波动。根据七麦数据，App Store 近七日日均下载量仍旧维持在 2 万左右，在应用（免费）和摄影与录像（免费）榜单上的排名依然保持稳定，并没有太大的变化曲线。

从商业路径上看，目前「可灵」吸引的更多还是 C 端消费者。相比文生图和文生文等模型在广告等领域已经有广泛的使用场景，文生视频大模型的使用场景依然有限，所以策略往往先服务于内容生产者，不断扩展消费端的使用场景，最终吸引 B 端客户和商家付费使用。

更重要的是，国内 Sora 第一的竞争对手正在赶来的路上。

一方面是国内市场，根据消息人士透露，字节跳动旗下视频生成大模型也在内测中，估计很快发布，也将依靠旗下创作工具剪映上线。对剪映来说，此前已经上线的「即梦」已经实现了文生视频大模型的相应功能，只是目前这部分功能优化程度不足而已。

而变化更快的是国际市场，就在 6月 13 日，Luma AI 首发了自己的视频生成模型 Dream Machine，用户可以通过文字或图片生成高质量的高清视频，比快手「可灵」更进一步的是，Luma 实现了免费全量开放，登录即用并不用预约等待。

但与快手「可灵」面临的问题一样，Luma AI 也面临算力不足的问题，使用时需要长时间等待，等待结果也有可能是生成内容失败，所以算力是制约文生视频大模型最大的瓶颈。

大模型行业此前公开过相关数据，大模型要实现 Sora 类似的水平，就需要有千卡级别的算力，进一步优化能力则需要万卡级别的算力，这意味着大规模算力集群的调动能力，不论是使用英伟达的旗舰 GPU 芯片，还是华为昇腾的国产 AI 芯片。

大模型竞争依然处于初期，AI 大模型本身对云服务来说是锦上添花，如何把应用落地做好，把成本最低，依然是当下大模型行业面临的共同命题。

相比于字节跳动的大模型策略，快手在大模型上的策略仅仅有「可灵」依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低，通过价格战大幅降低模型推理的单位成本，吸引 B 端客户进入火山引擎的云服务之中。如果字节跳动发布视频生成大模型，那一定是实现了成本更低的一条路。

以上就是本篇文章【快手可灵，把压力给到了抖音剪映】的全部内容了，欢迎阅览！文章地址：http://yejunbin01.xhstdz.com/quote/78462.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多