首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频

2025-02-07 19:34 · 稿源: 快科技

AI视频生成新突破:只需图片和音频,即可轻松制作生动短片!

科技界传来激动人心的消息!近期,抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。

这款全新功能采用了先进的多模态视频生成模型 OmniHuman为创作者带来了前所未有的便利。只需提供一张图片和一段音频,该模型就能生成一条栩栩如生的 AI 视频,大幅提升视频制作的效率和质量。

OmniHuman 技术主页透露,该模型由字节跳动自主研发,支持输入各种尺寸的图片,包括肖像、半身和全身。根据输入的音频,OmniHuman 可自动生成人物与其匹配的动作,包括演讲、演唱、演奏乐器和移动。

对于人物视频生成中的常见问题,如手势崩坏,OmniHuman 也做出了显著的改进。此外,该模型还支持输入动漫和 3D 卡通等非真人图片,并能保持原有的风格和动作。

从展示的演示效果来看,OmniHuman 的生成效果令人印象深刻,具有较高的自然度。为了防止该技术被滥用,字节跳动技术团队特别强调,OmniHuman 将不会对外提供下载。

即梦 AI 相关负责人透露,OmniHuman 目前已具备不俗的表现,但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试,并逐步开放。

该负责人还表示,即梦将对该功能实施严格的安全审核机制,并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用,帮助视频创作者充分发挥想象力。

举报

  • 相关推荐
  • 三星Galaxy Z系列智能生态体验新篇章 多模态AI体验会川渝站开启

    7月25日,三星在川渝地区举办Galaxy Z系列新品AI体验活动,展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术,配备Samsung One UI8系统,通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用,Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合,重新定义移动设备交互体验,推动行业进入以人为中心的智能协同新时代。

  • 阿里开源通义万相2.2:可生成电影级高清视频

    阿里云宣布旗下通义万相2.2模型正式开源。 通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。 这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。 此次开源,通义万相2.2推出了文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-

  • 医工结合技术交流会成功举办,YOUMAGIC舒立缇定义射频抗衰技术新标准

    7月25日,YOUMAGIC舒立缇联合清华大学工程物理系举办"重返校园·共启新程"医工结合技术交流会。活动汇聚百余位医学专家、学者及产业代表,探讨医工结合的深层价值。会上发布《新一代单极射频技术蓝皮书》,为行业树立技术新标准。清华教授分享了医工融合实践经验,指出高校在跨学科科研生态中的关键作用。威脉医疗旗下YOUMAGIC舒立缇作为医工结合实践成果,通�

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • ZEGO AI Agent:支持一张图生成数字人

    即构科技推出AI Agent2.4,用户只需上传一张正面照即可生成1080P高清数字人,支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应,唇形同步准确,支持文本/音频/语音流驱动。适用于教育、客服等场景,提供API灵活定制,实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎,在生成效率、拟真度方面显著提升,带来低门槛、高沉浸的数字人互动体验。

  • 苹果官方闹乌龙 账号误传三星宣传视频

    7月30日,苹果官方微博账号在介绍家长控制功能时,意外配上了竞争对手三星Galaxy Z Flip7的宣传视频,引发网友热议。该微博虽被迅速删除,但已被广泛传播。有猜测认为这可能源于两家公司在中国市场共用同一家广告代理公司,导致工作人员操作失误。当前苹果正聚焦首款折叠屏iPhone研发,分析师预测该机型或于2026年9月发布,届时将与三星等品牌展开激烈竞争。此次乌龙事件为即将到来的折叠屏手机大战增添戏剧性色彩。(140字)

  • 三维天地AI智能体应用落地场景:一键生成的“编译工厂”

    文章分析了当前软件开发行业面临的三大痛点:1)软件需求激增与开发人才短缺的矛盾;2)传统开发流程中需求分析、编码等环节效率低下;3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案,该方案通过自然语言处理技术,将结构化需求文档自动转换为可执行代码,显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在:开发周期从天级缩短至分钟级;降低60%人力成本;代码风格统一规范;减少人为错误;沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 年轻人对AI情感陪伴需求激增,Soul升级AI技术迭代社交体验

    社交平台Soul全面升级AI社交功能,突破传统语音交互限制,实现更自然流畅的人机对话。新模型赋予AI自主决策对话节奏的能力,支持实时打断和补充,并融入口语化表达、语气词等真实交流特征。平台还通过纯自回归模型架构,整合人物设定、环境等上下文信息,塑造立体"数字人格"。该技术即将应用于虚拟人实时通话、AI匹配等1V1场景,未来还将拓展至多人互动。此次升级标志着AI社交从信息交互向情感陪伴的重要转变,为用户带来更具沉浸感的社交体验。