谁说视频只能“一镜到底”？字节创新技术LCT，让AI像导演一样拍摄电影大片！

2025-03-18 10:13 · 来源： AIbase基地

你是不是已经看惯了那些由AI生成的，虽然逼真但总感觉少了点“味道”的短视频?现在，一项名为长上下文调整（Long Context Tuning， LCT）的创新技术横空出世，它让AI视频生成模型拥有了执导多镜头叙事视频的能力，如同电影和电视剧那样，在不同镜头之间自由切换，构建出更连贯、更引人入胜的故事场景。

过去，顶尖的AI视频生成模型，比如SoRA，Kling，Gen3，已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中，由多个镜头组成的叙事视频（比如电影中的一个场景）的需求之间存在巨大的鸿沟。一个电影场景通常由一系列捕捉同一连贯事件的不同单镜头视频组成。

Video Player

Media error: Format(s) not supported or source(s) not found

Download File: https://upload.chinaz.com/video/2025/0318/6387788954379300652084259.mp4 Download File: https://upload.chinaz.com/video/2025/0318/6387788954379300652084259.mp4

00:00

Use Up/Down Arrow keys to increase or decrease volume.

例如，在电影《泰坦尼克号》中，杰克和露丝在甲板上相遇的经典场景就包含了四个主要的镜头:杰克回头的特写、露丝说话的中景、露丝走向杰克的广角镜头，以及杰克从背后拥抱露丝的特写。生成这样的场景，需要确保视觉外观(如人物特征、背景、光线和色调的一致性)和时间动态(如人物动作的节奏和相机运动的平滑度)在不同镜头之间保持高度的连贯性，从而保证叙事的流畅性。

为了弥合单镜头生成和多镜头叙事之间的差距，研究人员提出了多种方法，但大多存在局限性。一些方法依赖于输入关键的视觉元素（如人物身份和背景）来强制保持跨镜头的视觉一致性，但难以控制光线和色调等更抽象的元素。另一些方法则先生成一组连贯的关键帧，再利用图像到视频(I2V)模型独立合成每个镜头，这又难以保证镜头之间的时间一致性，并且稀疏的关键帧也限制了条件的有效性。

Video Player

Media error: Format(s) not supported or source(s) not found

Download File: https://upload.chinaz.com/video/2025/0318/6387788956157868686534274.mp4 Download File: https://upload.chinaz.com/video/2025/0318/6387788956157868686534274.mp4

00:00

Use Up/Down Arrow keys to increase or decrease volume.

而LCT的出现，正是为了解决这些难题。它就像给预训练的单镜头视频扩散模型安装了一个“超强大脑”，使其能够处理更长的上下文信息，直接从场景级别的视频数据中学习镜头间的连贯性。LCT的核心在于以下几个创新设计:

全注意力机制的扩展:LCT将原本应用于单个镜头的全注意力机制扩展到包含场景内的所有镜头。这意味着模型在生成视频时，能够同时“关注”整个场景的所有视觉和文本信息，从而更好地理解和维护跨镜头的依赖关系。

交错的3D位置嵌入:为了让模型能够区分不同镜头中的token（文本和视频的基本单元），LCT引入了一种交错的3D旋转位置嵌入(RoPE)。这就像给每个镜头和其内部的token都打上了独特的“标签”，使得模型既能识别每个镜头的独立性，又能理解它们在整个场景中的相对位置关系。

Video Player

Media error: Format(s) not supported or source(s) not found

Download File: https://upload.chinaz.com/video/2025/0318/6387788957473403898239758.mp4 Download File: https://upload.chinaz.com/video/2025/0318/6387788957473403898239758.mp4

00:00

Use Up/Down Arrow keys to increase or decrease volume.

异步噪声策略:LCT创新性地为每个镜头应用独立的扩散时间步。这使得在训练过程中，模型能够学习不同镜头之间的动态依赖关系，并更有效地利用跨镜头的信息。例如，当一个镜头的噪声水平较低时，它可以自然地作为视觉信息的丰富来源，指导其他噪声较高的镜头的去噪过程。这种策略也为后续的视觉条件输入和联合生成提供了便利.

实验结果表明，经过LCT调整的单镜头模型在生成连贯的多镜头场景方面表现出色，并展现出一些令人惊喜的新能力。例如，它可以根据给定的角色身份和环境图像进行组合生成，即使模型之前没有接受过此类任务的专门训练。此外，LCT模型还支持自回归的镜头扩展，无论是连续的单镜头延伸还是带有镜头切换的多镜头扩展都可以实现。这项特性对于长视频的创作尤其有用，因为它将长视频生成分解为多个场景片段，方便用户进行交互式修改。

更进一步，研究人员还发现，在LCT之后，具有双向注意力的模型可以进一步微调为上下文因果注意力。这种改进的注意力机制在每个镜头内部仍然保持双向关注，但在镜头之间，信息只能从先前的镜头流向后续镜头。这种单向的信息流使得在自回归生成过程中可以高效地利用KV-cache（一种缓存机制），从而显著降低计算开销。

如图1所示，LCT技术可以直接应用于短片制作，实现场景级的视频生成。更令人兴奋的是，它还催生了交互式多镜头导演、单镜头扩展以及零样本的组合生成等多种新兴能力，尽管模型从未针对这些特定任务进行过训练。如图2展示了一个场景级视频数据的示例，它包含全局提示（描述角色、环境和故事梗概）以及针对每个镜头的具体事件描述。

总而言之，长上下文调整（LCT）通过扩展单镜头视频扩散模型的上下文窗口，使其能够直接从数据中学习场景级的连贯性，为更实用的视觉内容创作开辟了新的道路。这项技术不仅提升了AI生成视频的叙事能力和连贯性，也为未来的长视频生成和交互式视频编辑提供了新的思路。我们有理由相信，未来的视频创作将因为LCT等技术的进步而变得更加智能化和更具创造力。

项目地址：https://top.aibase.com/tool/zhangshangxiawentiaoyoulct

论文地址：https://arxiv.org/pdf/2503.10589

相关推荐

戴尔智能冷却：以创新技术引领数据中心绿色革命

人工智能技术快速发展推动算力需求激增，中国算力中心市场预计未来五年将以18.9%年复合增长率增长，2027年规模将突破3075亿元。与此同时，单机柜功率密度急剧攀升，传统风冷技术已达40千瓦制冷极限。液冷技术凭借更高散热效率和节能优势，正成为数据中心首选方案。戴尔科技推出智能冷却解决方案，覆盖从风冷到浸没式液冷等多种技术，可根据客户需求定制PUE值1.02-1.4的不同方案。其液冷服务器已在全球超算中心广泛应用，如美国TACC Frontera超算采用冷板式液冷技术，中国某高校浸没式液冷集群实现PUE值1.049。戴尔通过持续创新，助力数据中心向高效、绿色、可持续发展迈进。

人工智能算力需求能耗管理

4小时前
XBIT以创新技术引领币圈十大APP，开启数字货币交易新时代

XBIT去中心化交易所凭借创新技术和合规架构，正在重塑加密交易新格局。作为首个通过欧盟MiCA和美国SEC双认证的去中心化平台，其采用抗量子攻击私钥系统和零知识证明技术，实现资产安全存储与隐私保护。通过ZK-Rollups技术实现零Gas费跨链交易，AI动态熔断系统将杠杆爆仓风险降至行业最低，单周机构资金流入超31%。数据显示，去中心化衍生品交易量一年增长400%，XBIT原生代�

去中心化交易 XBIT平台数字货币交易

1天前
摇橹船科技参编2025机器人发展蓝皮书斩获双项创新技术认证

作为全球最大的机器人应用市场，我国正以“制造强国”战略为牵引，推动机器人产业从规模扩张向质量跃升转型。据工信部数据统计， 2024 年我国机器人密度较“十三五”末增长120%，成为全球智能制造的核心引擎。2025 年 4 月 10 日，“OFweek2025（第十四届）中国机器人产业大会”在深圳举行，摇橹船科技联合创始人梁良受邀出席，与国内外院士、权威专家及业内领军企业领袖

机器人应用市场智能制造制造强国

9天前
荐阿里、字节终结百镜大战？

智能眼镜这块大蛋糕，还是吸引来了更多巨头分食。4月初，维深信息Wellsenn XR爆料称，阿里巴巴AI智能眼镜方案已确认，正在积极招聘人才，扩充研发团队，首款产品预计今年底发布。紧接着，《科创板日报》报道称，字节也被传正在计划推出AI智能眼镜，提供类似自研模型豆包的AI功能，并已进入供应链谈判和技术定型阶段。至此，算上此前的百度、小米，以及海外的苹果、Me

智能眼镜 AI技术科技巨头

9天前
新技术新赋能百度短剧助力优质内容破圈成长

2024 年短剧市场规模达到504. 4 亿元，同比增长34.9%，首次超过中国电影全年总票房预计的 470 亿元，如此红利下， 2025 年各平台都在逐步增加对对短剧的投入。在过去的一年里，百度短剧持续发力，业务规模及用户规模高速增长，屡破新高。据 3 月 26 日召开百度百家合伙人短剧专场中介绍， 2025 年短剧市场将更加火爆，市场规模预计将达到634. 3 亿元。百度短剧DAU已破 4000 万，�

短剧市场百度短剧 2025年投资

1月前
新技术让人类能看见从未见过的颜色开启色彩认知新篇章

科学家成功研发出一种革命性的视网膜基因编辑技术“Oz”，突破了传统对色盲的认知局限，为患者带来了全新的视觉体验。该技术通过精确控制视网膜内的感光细胞，打破了自然限制，使受试者能够观察到一种前所未有的颜色。研究团队还探索了该技术在矫正色觉异常方面的潜力，并表示将继续深入研究，推动其在更多领域的应用。这一成果不仅拓展了视觉科学的研究领域，也引发了人们对人类视觉感知的深刻思考。未来，人类的视觉体验将更加丰富和多彩。

视网膜刺激视觉体验色觉缺陷

5天前
宝马×字节跳动：以AI赋能汽车营销创新变革

4月18日，华晨宝马旗下领悦数字信息技术公司与字节跳动旗下火山引擎达成合作，双方将围绕AI技术在汽车营销服务的创新应用展开深度合作。通过AI+场景的高效匹配，实现产品精准推荐、内容智能引导，提升用户购车体验与经销商运营效率。宝马集团大中华区总裁高翔表示，此次合作是宝马"360度全链AI战略"在营销领域的重要实践。领悦公司将借助火山引擎的大模型技术，打造专属智能营销工具，提供24小时在线客服、个性化推荐等服务。这是双方自2019年以来的第三次合作，此前已在数字化运营、直播营销等领域取得成果。此次合作标志着宝马加速推进AI技术在全业务链的应用，持续深化中国市场数字化转型。

华晨宝马人工智能营销服务

3天前
碳中和的“托底技术”：CCUS如何破解减排困局？_绿舟

碳捕集、利用与封存(CCUS)技术是应对气候变化、实现碳中和目标的关键技术之一。以下绿舟将从技术原理、应用现状、挑战及未来发展方向等方面进行综合分析：一、技术原理与核心环节CCUS是通过从工业排放源(如燃煤电厂、钢铁厂等)分离二氧化碳，随后将其运输至特定地点进行资源化利用或地质封存的技术体系，主要包含三个环节：捕集：采用化学吸收法、物理吸附法或膜�

碳捕集气候变化碳中和

12天前
荐挤爆字节服务器的Agent到底啥水平？一手实测来了

字节推出"量子位"智能协作系统"扣子空间"，具备信息整理、任务执行、工具调用等多项能力。测试显示其自主任务规划和资料搜集表现惊艳，已具备解决实际任务的潜力。系统分为探索和规划两种模式，前者重效率，后者可详细拆解任务。实测中能自动整理信息生成报告，并直接制作包含丰富内容的网页或PPT。在虚拟沙盒环境中还能操作电脑、浏览网页、订票�

字节版Manus 扣子智能体量子位测试

4天前
专访中国时空AI领域技术创新专家路新江

当数字浪潮席卷产业变革，时空AI便成为了指引方向的关键力量。 2024 年某公司智能云在"中国MaaS市场"与"中国AI大模型解决方案市场"成绩突出，分别以32.4%和17%的市场份额划展现出在AI领域的显著优势。基于城市大数据的时空AI技术建成的AI原生地图，用户规模已突破一亿大关，日均对话量超千万次，成功跻身国内破亿大模型产品行列；与山东省港口携手打造的“智慧运营助手”

12天前

今日大家都在搜的词：

热文

3 天
7天

谁说视频只能“一镜到底”？字节创新技术LCT，让AI像导演一样拍摄电影大片！

戴尔智能冷却：以创新技术引领数据中心绿色革命

XBIT以创新技术引领币圈十大APP，开启数字货币交易新时代

摇橹船科技参编2025机器人发展蓝皮书斩获双项创新技术认证

荐阿里、字节终结百镜大战？

新技术新赋能百度短剧助力优质内容破圈成长

新技术让人类能看见从未见过的颜色开启色彩认知新篇章

宝马×字节跳动：以AI赋能汽车营销创新变革

碳中和的“托底技术”：CCUS如何破解减排困局？_绿舟

荐挤爆字节服务器的Agent到底啥水平？一手实测来了

专访中国时空AI领域技术创新专家路新江

今日大家都在搜的词：

热文

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！2.64万热度

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！2.02万热度

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……1.75万热度

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等1.28万热度

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！0.61万热度

印度将中国电子投资压股至 10%，且要求“技术转让”0.57万热度

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！2.84万热度

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万2.77万热度

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！2.73万热度

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！2.64万热度

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！2.03万热度

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……1.76万热度

4chan 之“死”：互联网最狂野的角落逐渐消逝！1.49万热度

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等1.29万热度

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组0.95万热度

马斯克回归消息传出后，特斯拉股价飙升10%87.10万热度

站长商机