首页 > 业界 > 关键词  > StableDiffusion3最新资讯  > 正文

Stability AI发布SD3技术报告 披露SD3更多细节

2024-03-05 14:44 · 稿源:站长之家

站长之家(ChinaZ.com)3月5日 消息:Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。

image.png

技术报告要点如下:

根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E3、Midjourney v6和 Ideogram v1。

报告提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer, 简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。

SD38B 大小的模型可以在 GTX409024G 显存上运行。此外,SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M 到8B。

SD3架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,他们为这两种模态使用了独立的权重集。通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。

SD3采用了矫正流 (Rectified Flow, 简称 RF) 的公式,在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。

他们还进行了扩展矫正流 Transformer 模型的研究,使用重新加权的 RF 公式和 MMDiT 主干网络,训练了一系列模型,其规模从15个 Transformer 块 (4.5亿参数) 到38个块 (80亿参数) 不等。

SD3还引入了灵活的文本编码器,通过在推理阶段移除内存密集型的 T5文本编码器(参数量高达47亿),SD3的内存占用可以大幅降低,而性能损失却很小。

总的来说,Stability AI 的这一技术报告揭示了 SD3的强大功能和细节,显示出其在图片生成领域的领先地位。

详细内容点此查看:https://stability.ai/news/stable-diffusion-3-research-paper

举报

  • 相关推荐
  • GPTBots.ai音频大模型功能更新,为AI SDR解决方案奠定技术基础

    作为领先的企业级AI智能体构建平台,GPTBots.ai近期完成了音频大模型功能的重要更新,为企业在实时语音交互领域带来了更高效、更自然的体验。本次功能更新基于OpenAI原生音频多模态大模型,支持语音到语音的直接交互,无需依赖传统的语音识别和语音合成流程。了解更多信息,请访问www.gptbots.ai。

  • 《GTA5》PC版10年最重大更新!终于支持光追、FSR3、DLSS3、SSD加速

    《GTA5》诞生于2013年,两年后登陆PC,但时至今日,这款经典游戏依然活力十足,并将在3月4日迎来一次史诗级重大更新,支持一系列新技术:首先,它终于加入光线追踪技术,比如环境光遮蔽、全局光照、光追阴影和反射之前只有主机版才支持。NVIDIADLSS3、AMDFSR1/3两大超分技术也将同步加入,确实来得有点晚了,不知道何时可以跟进DLSS4、FSR4?至少初期名单里还看不到它。除了各种新的图形技术,游戏本身在玩法设置上也会有诸多强化,包括一系列新的载具等等。

  • 美光SSD固态硬盘与Astera Labs携手突破,开启数据存储新纪元

    智往一处谋,力往一处使,携手合作从来都是人类社会发展与进步的重要基石。拿苹果公司的创始人史蒂夫·乔布斯与史蒂夫·沃兹尼亚克来说,他们携手合作,共同创造出了个人电脑的革命性产品——AppleI,开创了一个全新的时代。双方将紧密协作,致力于推出业界领先的解决方案,共同推动数据存储和高速连接技术迈入崭新的时代。

  • SAP 和 Databricks 使客户能够统一 AI 的数据

    SAP和Databricks发布了一项新的合作伙伴关系和产品,旨在通过将SAP数据与其余企业数据结合,帮助客户更轻松地统一所有数据。根据两家公司在2月13日发布的新闻稿,新的SAPDatabricks产品将Databricks数据智能云原生集成到新推出的SAPBusinessDataCloud中。至于Databricks,该公司在1月表示,它通过J轮融资筹集了150亿美元,并计划将这些资金投资于新的AI产品、收购以及扩展其国际市场业务。

  • 何小鹏热烈欢迎特斯拉FSD中国推送:智驾行业会有更多有趣交流

    今晚,小鹏汽车董事长何小鹏发文称:听说今天特斯拉FSD开始陆续在中国推送,热烈欢迎,整个智能驾驶行业会有更多的有趣交流和互相促进。”何小鹏表示,小鹏和特斯拉是全球最早将大模型端到端技术应用在智能驾驶并量产落地的AI科技公司,也是唯二有能力不依赖高清地图和激光雷达,用一套软件努力实现智能驾驶全球都好用”的AI科技探索者。这或许是特斯拉官网将FSD�

  • 追求最佳TCO,忆联PCIe 5.0 SSD为大模型加速

    随着DeepSeek等大模型规模化部署,数据中心承载了越来越庞大的数据规模及计算任务,需要强大的基础设施来支持数据传输和通信,对底层存储系统也提出了更大挑战:存储设备不仅要满足海量数据的高吞吐、低时延需求,同时还需兼顾成本,以实现最佳TCO。数据中心TCO包含哪些方面?随着AI与云计算的深度融合,忆联将持续以技术创新推动存储边界突破,为千行百业的智能化转型夯实存力底座,携手伙伴共筑大模型新生态。

  • 特斯拉国内FSD和美国版FSD有什么区别 一图看懂

    特斯拉中国日前宣布,2024.45.32.12已开始分批次推送,城市道路Autopilot自动辅助驾驶功能上线,这也意味着特斯拉FSD正式落地中国。已经升级过的车主经过实测,国内版的FSD只能算是具备领航功能的高阶智驾这又与美版FSD有多大区别呢?有报道指出,当前特斯拉给车主推送的辅助驾驶功能属于残血版”FSD满血版”系统当前正在国内进行测试优化,预计3、4月份开启推送。

  • 佰维Mini SSD:面向端侧AI时代的存储扩展革新方案

    随着端侧AI应用场景的迅猛增长,智能终端设备对存储性能与容量的要求正经历指数级提升。传统存储方案正逐渐暴露其固有的局限性:1、传统SSD的扩容方式需要拆卸机壳,不仅过程繁琐需专业工具和技术支持,带来较高的售后成本;2、存储卡方案虽具便携性,但常规存储卡受限于性能瓶颈,难以满足AI应用的高速读写需求高端型号虽可实现近似速度,却在接口兼容性、成本效益等方面仍存在局限性。

  • 三星PCIe 5.0 SSD来了!首次8TB、速度翻倍飙到14800MB/s

    今天三星宣布发布9100PRO系列PCIe5.0NVMeSSD,这款产品是990PRO的继任者,承诺性能提升99%,几乎是前代产品的两倍。根据官方数据,该SSD的顺序读取速度最高可达14800MB/s,顺序写入速度可达13400MB/s,在随机性能方面,读写速度分别为2200KIOPS和2600KIOPS。不过不知是何原因,三星在发布不久后便撤回了公告,不过估计在几天之内应该会再次上线。

  • 特斯拉在华发布FSD:推出城市道路自动辅助驾驶

    特斯拉中国官方今日正式发文,宣布其最新的软件更新2024.45.32.12已开始分批次向中国车主推送。此次软件更新带来了多项重要升级,特别是针对城区驾驶体验的优化。此次软件更新的推出,标志着特斯拉在自动驾驶技术方面又迈出了重要一步,为中国车主带来了更加智能和便捷的驾驶体验。