近日,HPC-AI Tech 宣布推出 Open-Sora2.0,这是一款突破性的视频 AI 系统,仅需约十分之一的典型训练成本即可实现商业级质量。这一进展标志着在资源密集型的视频 AI 领域可能出现范式转变,堪比语言模型中出现的效率提升。
虽然像 Movie Gen 和 Step-Video-T2V 这样现有的高质量视频生成系统可能需要数百万美元的训练费用,但 Open-Sora2.0的训练支出仅约为20万美元。尽管成本大幅降低,但测试表明,其输出质量可与 Runway Gen-3Alpha 和 HunyuanVideo 等已建立的商业系统相媲美。该系统使用了224个 Nvidia H200GPU 进行训练。
Video Player
提示:“两个女人坐在米色沙发上,房间温馨舒适,背景是砖墙。她们愉快地交谈,面带微笑,在亲密的中景镜头中举杯庆祝红酒。”| 视频:HPC-AI Tech
Open-Sora2.0通过一种新颖的三阶段训练过程实现其效率,首先从低分辨率视频开始,逐步细化到更高分辨率。集成像 Flux 这样的预训练图像模型进一步优化了资源利用。其核心是视频 DC-AE 自动编码器,与传统方法相比,它提供了卓越的压缩率。这一创新转化为令人瞩目的5.2倍更快的训练速度和超过十倍更快的视频生成速度。虽然更高的压缩率导致输出细节略有减少,但它极大地加快了视频创建过程。
Video Player
提示:“一颗番茄在一片生菜上冲浪,顺着牧场酱汁瀑布而下,夸张的冲浪动作和柔滑的波浪效果凸显了3D 动画的乐趣。”| 视频:HPC-AI Tech
这款开源系统可以从文本描述和单张图像生成视频,并通过运动评分功能让用户控制生成片段中的运动强度。HPC-AI Tech 提供的示例展示了各种场景,包括逼真的对话和异想天开的动画。
然而,Open-Sora2.0目前在分辨率(768x768像素)和最长视频时长(5秒或128帧)方面存在限制,逊于 OpenAI 的 Sora 等领先模型的功能。尽管如此,其在视觉质量、提示准确性和运动处理等关键领域的表现正逼近商业标准。值得注意的是,Open-Sora2.0的 VBench 得分现在仅落后 OpenAI 的 Sora0.69%,与之前版本4.52% 的差距相比有了显著改进。
Video Player
提示:“一群拟人化的蘑菇在一片黑暗的魔法森林中举行迪斯科派对,伴随着闪烁的霓虹灯和夸张的舞步,它们光滑的纹理和反光的表面强调了滑稽的3D 外观。”| 视频:HPC-AI Tech
Open-Sora2.0的成本效益策略与语言模型中的“Deepseek 时刻”相呼应,当时改进的训练方法使开源系统能够以远低于商业系统的成本实现商业级性能。这一发展可能会对视频 AI 领域的价格产生下行压力,该领域目前由于计算需求高昂,服务按秒收费。
培训成本比较:Open-Sora2.0需要大约20万美元,而 Movie Gen 需要250万美元,Step-Video-T2V 需要100万美元。| 图片:HPC-AI Tech
尽管取得了这一进展,但开源和商业视频 AI 之间的性能差距仍然大于语言模型,这突显了该领域持续存在的技术挑战。Open-Sora2.0现在已在 GitHub 上作为开源项目提供。