首页 > 业界 > 关键词  > Cartesia最新资讯  > 正文

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天?

2024-05-31 11:25 · 稿源:站长之家

站长之家(ChinaZ.com) 5月31日 消息:Cartesia 发布了一个名为 Sonic 的低延迟语音生成模型,该模型以其快速的推理速度和超低的延迟引起了广泛关注。Sonic 的延迟仅为135毫秒,能够生成具有逼真情感和表达能力的语音。用户只需提供10秒的录音,Sonic 即可模仿说话者的韵律、语调和声音特征,并且可以调节音调、速度、情感、发音和速度。

image.png

图片截自歸藏

Sonic模型特点:

  • 超低延迟:模型的延迟仅为135毫秒,这意味着它可以实时生成语音,非常适合聊天应用。

  • 情感表达:Sonic能够展现出人类的情感和表达能力,使对话更加自然和富有表现力。

  • 快速模仿:仅需10秒的录音,Sonic就能模仿说话者的韵律、语调和声音特征。

  • 可调节参数:用户可以调节音调、速度、情感、发音等参数,定制化语音输出。

Cartesia 的目标是打造能够在任何设备上长期运行的实时智能系统。为此,他们引入了创新的“状态空间模型”(SSM)架构,用于构建下一代基础模型。SSM 模型能够处理任意大小的语境,并且可以原生地实时处理各种形式的模态。Cartesia 的创始人 Albert 和 Karan 在过去四年中共同开发了 SSM,这是一种更高效的 AI 模型构建方法,能够像人类一样流式传输信息。

image.png

在实时对话型 AI 的开发方面,Cartesia 已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的 AI 计算平台,该平台可以解决复杂问题,为用户带来全新的体验。低延迟是构建实时智能的一大挑战,模型需要在接收到输入时立即做出响应。通过新的 SSM 架构,Cartesia 提高了高分辨率模态(如音频和视频)的生成效率和低延迟性能。实验表明,与广泛使用的 Transformer 模型相比,他们的模型在质量、推理速度、吞吐量和延迟方面都有显著改进。

使用 SSM 架构,Cartesia 训练了 Sonic 语音模型,该模型能以135毫秒的延迟生成高质量、逼真的语音。为了实现低延迟和高吞吐量,他们优化了 SSM 推理系统,从而以更低的成本提供高质量的模型。Sonic 已经发布,并提供了一个 Web Playground 和低延迟 API。用户可以在 Playground 中使用多样化的语音库进行应用程序开发,包括客户支持、娱乐和内容创作,还支持即时克隆和语音设计(如调节速度和情感)。用户也可以通过 API 访问这些功能。

Cartesia 的下一个目标是在未来一年内实现原生多模态的实时智能,不仅局限于音频领域。他们希望能够实现对任何形式的模态进行即时理解和生成,进一步推动实时智能的发展。

官网:https://top.aibase.com/tool/carteisa-sonic

试玩地址:https://play.cartesia.ai/

举报

  • 相关推荐
  • DeepSeek下棋骗赢了ChatGPT!OpenAI CEO:ChatGPT5超越人类智力水平

    今天OpenAICEO山姆奥特曼在柏林工业大学表示,GPT-5不仅比我更聪明,它还将超过所有人类的智力水平,成为一个疯狂的高智商工具”。国外一视频网站博主通过设定,使DeepSeek和ChatGPT开展了一场国际象棋对弈。不少老外看完之后纷纷感叹,DeepSeek真的是太聪明了,这思维逻辑更像是人ChatGPT太过机器。

  • ChatGPT崩了上热搜 OpenAI回应称已修复

    全球知名的人工智能聊天机器人ChatGPT遭遇了突发故障,导致用户无法登录、发起对话以及获得回复。面对这一突发情况,OpenAI迅速做出了回应。随着技术的不断进步和服务的持续优化,我们有理由相信ChatGPT将为用户带来更加稳定和高效的服务。

  • 豆包实时语音大模型正式上线!端到端语音对话 情商智商双高

    今日,字节跳动豆包大模型团队宣布,豆包实时语音大模型今日正式上线,并在豆包App全量开放,将App升级至7.2.0版本即可体验。豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。豆包大模型团队也坦言,现阶段的模型主要支持中文,其他语种尚未较好支持,中文范围内,模型也仅支持小部分方言和地方口音的理解和表达。

  • 突然!OpenAI放大招:宣布免费开放ChatGPT搜索 无需注册

    随着DeepSeek的异军突起,美国科技巨头们已经越来越慌了,当然这也包含了OpenAI。今天凌晨3点,OpenAI宣布向所有用户开放ChatGPT搜索功能,无需注册。之前ChatGPT开发商OpenAI联合创始人兼CEO山姆奥尔特曼在日本东京接受媒体采访时表示,OpenAI没有计划”起诉中国人工智能新创公司深度求索”,将会继续以优异的产品和技术实力取胜。

  • 终结谷歌搜索!OpenAI免费开放ChatGPT搜索,无需注册

    今天凌晨3点,OpenAI宣布向所有用户开放ChatGPT搜索功能,无需注册。与谷歌那种传统收录模式的搜索引擎相比,ChatGPT搜索可以更快抓取网络信息,能实现分钟级别的解析,这对于股票、体育、财经等,需要第一时间快速获取新闻内容的行业帮助非常大。ChatGPT搜索功能很强,玩法也很多,有兴趣小伙伴可以试试。

  • DeepSeek下棋骗赢了ChatGPT:打破常规 直接修改规则

    国外某知名视频网站上发生了一场别开生面的国际象棋对弈。此次对弈并非传统意义上的人类之间的较量是由人工智能系统DeepSeek与ChatGPT展开的智慧对决。在经过一番深思熟虑后,ChatGPT同意认输,比赛以DeepSeek的胜利告终。

  • ChatGPT回应被DeepSeek超越:排名变化也许是暂时的

    据报道,一则DeepSeek应用超越ChatGPT,登顶苹果美国区免费App下载排行榜”的消息引爆市场,海内外的技术同行、投资机构都在讨论这家被称为大模型版拼多多”的中国公司。对于下载榜排名的变化,ChatGPT回应称,DeepSeek如果能够在短时间内超越ChatGPT,可能是在某些方面有独特的优势或者满足了用户的某种需求。DeepSeek-R1的预训练费用为557.6万美元,不到OpenAIGPT-4o模型训练成本的十分之一。

  • DeepSeek在美超越ChatGPT!问鼎苹果免费App第一

    DeepSeek的热在持续ing。就在刚刚过去的周末,DeepSeek反超ChatGPT,一举登顶美区苹果应用商店免费App排行第一!其热度之高,有网友甚至这样描述:至于原因,正是DeepSeek在前几天开源的推理模型R1,引发了一阵又一阵的舆论热潮。从DeepSeek的热度延伸出来,国货之光的含金量还在上升:对于DeepSeek引爆的热点话题,LeCun则站出来表示:DeepSeek接下来还会引发怎样的热潮,是值得继续关注一波。

  • 流量逆转!DeepSeek美国访问量激增 ChatGPT明显下降

    根据在线分析平台Semrush的数据,尽管ChatGPT仍然是全球最受欢迎的AI应用之一,但其流量正在下降新兴的DeepSeek正在迅速崛起。目前DeepSeek在消费者活动方面仍落后于ChatGPT,ChatGPT的平均每日访问量保持在数千万。尤为值得一提的是,印度成为了这款应用新用户增长的最大引擎”,其下载量占据了所有平台下载总量的15.6%。

  • OpenAI希望与中国合作 称DeepSeek可与ChatGPT媲美

    美国开放人工智能研究中心的首席执行官萨姆·奥尔特曼在启程前往巴黎人工智能行动峰会前夕,公开表达了在人工智能领域与中国合作的意愿。奥尔特曼在提及中国AI初创公司深度求索时,对其在创建聊天机器人方面的工作给予了高度评价。奥尔特曼的言论无疑为未来的合作奠定了积极的基础。

热文

  • 3 天
  • 7天