首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频

2025-02-07 19:34 · 稿源: 快科技

AI视频生成新突破:只需图片和音频,即可轻松制作生动短片!

科技界传来激动人心的消息!近期,抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。

这款全新功能采用了先进的多模态视频生成模型 OmniHuman为创作者带来了前所未有的便利。只需提供一张图片和一段音频,该模型就能生成一条栩栩如生的 AI 视频,大幅提升视频制作的效率和质量。

OmniHuman 技术主页透露,该模型由字节跳动自主研发,支持输入各种尺寸的图片,包括肖像、半身和全身。根据输入的音频,OmniHuman 可自动生成人物与其匹配的动作,包括演讲、演唱、演奏乐器和移动。

对于人物视频生成中的常见问题,如手势崩坏,OmniHuman 也做出了显著的改进。此外,该模型还支持输入动漫和 3D 卡通等非真人图片,并能保持原有的风格和动作。

从展示的演示效果来看,OmniHuman 的生成效果令人印象深刻,具有较高的自然度。为了防止该技术被滥用,字节跳动技术团队特别强调,OmniHuman 将不会对外提供下载。

即梦 AI 相关负责人透露,OmniHuman 目前已具备不俗的表现,但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试,并逐步开放。

该负责人还表示,即梦将对该功能实施严格的安全审核机制,并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用,帮助视频创作者充分发挥想象力。

举报

  • 相关推荐
  • 三星Galaxy Z系列智能生态体验新篇章 多模态AI体验会川渝站开启

    7月25日,三星在川渝地区举办Galaxy Z系列新品AI体验活动,展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术,配备Samsung One UI8系统,通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用,Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合,重新定义移动设备交互体验,推动行业进入以人为中心的智能协同新时代。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 共探AI视频新纪元:讯飞“绘镜开放麦”全回顾

    7月12日,科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行,汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划",邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验,讯飞工程师详解了AI视频生成技术原理,强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术,提升视频生成质量。活动还展示了AI视频挑战赛优秀作品,6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区,将持续推动AI创作生态发展。

  • ZEGO AI Agent:支持一张图生成数字人

    即构科技推出AI Agent2.4,用户只需上传一张正面照即可生成1080P高清数字人,支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应,唇形同步准确,支持文本/音频/语音流驱动。适用于教育、客服等场景,提供API灵活定制,实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎,在生成效率、拟真度方面显著提升,带来低门槛、高沉浸的数字人互动体验。

  • MasterAgent颠覆性上线:一键式生成智能体集群,分钟级构建专属AI协作网络

    全球首个L4+级智能体母系统MasterAgent在深圳发布,标志着AI从"被动执行工具"升级为能主动思考、跨界解决问题的"数字伙伴"。该系统突破性实现三大功能:一键生成智能体集群、多智能体自主协作、灵活定制优化。核心技术突破包括动态Agent生成框架将开发周期压缩至分钟级,以及去中心化多智能体协同机制,支持数百个智能体像"数字团队"一样高效协作。由深圳深元人工智能科技自主研发,其团队依托中国科学技术大学专家资源,已快速成长为国家级高新技术企业。这一突破让AI真正成为能创造实际价值的"新生产力单元"。

  • 三维天地AI智能体应用落地场景:一键生成的“编译工厂”

    文章分析了当前软件开发行业面临的三大痛点:1)软件需求激增与开发人才短缺的矛盾;2)传统开发流程中需求分析、编码等环节效率低下;3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案,该方案通过自然语言处理技术,将结构化需求文档自动转换为可执行代码,显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在:开发周期从天级缩短至分钟级;降低60%人力成本;代码风格统一规范;减少人为错误;沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。

  • 年轻人对AI情感陪伴需求激增,Soul升级AI技术迭代社交体验

    社交平台Soul全面升级AI社交功能,突破传统语音交互限制,实现更自然流畅的人机对话。新模型赋予AI自主决策对话节奏的能力,支持实时打断和补充,并融入口语化表达、语气词等真实交流特征。平台还通过纯自回归模型架构,整合人物设定、环境等上下文信息,塑造立体"数字人格"。该技术即将应用于虚拟人实时通话、AI匹配等1V1场景,未来还将拓展至多人互动。此次升级标志着AI社交从信息交互向情感陪伴的重要转变,为用户带来更具沉浸感的社交体验。

今日大家都在搜的词: