首页 > AI头条  > 正文

360智脑发布Tiny-R1-32B:5%参数逼近Deepseek-R1满血性能

2025-02-26 08:01 · 来源: AIbase基地

2月24日,360智脑团队与北京大学联合研发的中等量级推理模型 Tiny-R1-32B-Preview 正式发布。这一模型仅以5%的参数量,成功逼近了 Deepseek-R1-671B 的满血性能,展现了小模型在高效推理领域的巨大潜力。

该模型在多个关键领域的表现尤为突出。在数学领域,Tiny-R1-32B-Preview 在 AIME2024评测中取得了78.1分的成绩,与原版 R1模型的79.8分相当接近,远超 Deepseek-R1-Distill-Llama-70B 的70.0分。在编程和科学领域,该模型分别在 LiveCodeBench 和 GPQA-Diamond 测试中取得了61.6分和65.0分的成绩,全面领先于当前最佳开源70B模型 Deepseek-R1-Distill-Llama-70B。这一成果不仅证明了 Tiny-R1-32B-Preview 在性能上的卓越表现,还通过仅需5%的参数量大幅降低了推理成本,实现了效率的跃迁。

微信截图_20250226080042.png

这一突破背后的核心技术是“分治-融合”策略。研究团队基于 DeepSeek-R1生成海量领域数据,分别训练了数学、编程、科学三大垂直领域的模型。随后,通过 Arcee 团队的 Mergekit 工具进行智能融合,突破了单一模型的性能上限,实现了多任务的均衡优化。这种创新的技术路径不仅提升了模型的性能,也为未来推理模型的发展提供了新的思路。

360智脑团队和北京大学的联合研发团队表示,Tiny-R1-32B-Preview 的成功离不开开源社区的支持。该模型受益于 DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B 增量训练以及模型融合等技术。

为了推动技术普惠,研发团队承诺将公开完整的模型仓库,包括技术报告、训练代码及部分数据集。模型仓库已上线至 Hugging Face 平台,地址为 https://huggingface.co/qihoo360/TinyR1-32B-Preview。

  • 相关推荐
  • 32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

    【新智元导读】HuggingFace的OpenR1重磅升级,7B击败Claude3.7Sonnet等一众前沿模型。凭借CodeForces-CoTs数据集的10万高质量样本、IOI难题的严苛测试,以及模拟真实竞赛的提交策略优化,这款模型展现了惊艳的性能。结合来自数学和代码等多领域的奖励信号,并引入奖励模型来评分非推理数据。

    6天前
  • 我用扣子Coze搭建了一个超频版DeepSeek-R1

    DeepSeek-R1发布已经一月有余,接入这个爆火的模型,也成了各大AI应用共飨盛宴的财富密码。直接复制一个不宕机的DeepSeek-R1,明摆着只是想吃这一波流量,并没有创造新的价值出来。嗯,基本上就是在这一个界面里,我整出了这么一个超频版DeepSeek-R1,没有意外的话,我会一直把这个智能体当做自己的长期助手来用,同时也把它发布到扣子的商店里了,搜索超频版DeepSeek-R1就能�

    15天前
  • Realme真我正式官宣接入DeepSeek-R1

    站长之家2月20日消息:Realme真我官宣,将在其25日发布的真我Neo7SE中接入Deepseek-R1。值得一提的是,这也是行业首发游戏功能接入Deepseek。根据此前公开的信息显示,真我Neo7SE采用全新的机甲设计,配备了1.5K直屏,搭载的是联发科天玑8400-Max处理器,电池容量高达7000mAh,这也是行业内电池最大的天玑8400系列机型。

  • DeepSeek-R1联网搜索能力首测:腾讯元宝第一

    国产大模型DeepSeek-R1爆火后,许多第三方平台陆续接入了该模型,比如腾讯、阶跃星辰、蚂蚁集团、百度、字节跳动等等。中文大模型测评基准SuperCLUE发布DeepSeek-R1联网搜索能力首测,公布了10家第三方平台测评结果。所有平台在分析推理能力上平均耗时都明显高于基础检索能力。

  • 阿里推出全新推理模型:仅1/21参数媲美DeepSeek R1

    阿里Qwen团队正式发布他们最新的研究成果QwQ-32B大语言模型。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数的DeepSeek-R1媲美。QwQ-32B已在HuggingFace和ModelScope开源,大家也可通过QwenChat直接进行体验!

  • 鸿蒙版百度地图大升级:融合DeepSeek-R1满血

    日前,百度地图宣布,鸿蒙版百度地图新升级,融合DeepSeek-R1满血版。华为原生鸿蒙手机用户可将鸿蒙版百度地图升级至1.4.5版,检索即可体验,比如问问DeepSeek小众景区玩法、游玩推荐,帮你设置个性化定制路线等。2025年鸿蒙生态要压强投入,10万个应用是生态成熟标志,这是未来半年到一年时间的关键目标。

  • 老黄发布新核弹B300,英伟达:B200已破DeepSeek-R1推理世界纪录

    带着最强AI芯片GB300闪亮登场“AI超级碗”GTC,燃爆全场!性能方面,和去年发布的GB200相比,推理性能是其1.5倍。目前Nano和Super模型可在NIM微服务中获取,Ultra模型即将推出。所以大家这次都在观望,老黄是否又会“语出惊人”,相关探讨是否会对量子计算产业产生更大影响。

  • 老显卡也能用!美团开源首发INT8无损满血DeepSeek R1

    日前美团技术团队宣布对DeepSeekR1进行了INT8精度量化,让DeepSeekR1可以在如A100等老型号GPU上进行部署。DeepSeekR1发布以后不少企业和个人都在尝试部署满血版本,但原生版本的模型权重为FP8数据格式,对GPU芯片类型有严格限制,仅能被英伟达新型GPU支持,其他型号GPU无法直接部署。目前量化代码已经发布在了开源LLM推理框架SGLang上,量化模型已经发布到了HuggingFace社区:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8对具体过程感兴趣的,可以查看官方技术报告。

  • 全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

    【新智元导读】由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!这一成就,再次让AI社区轰动。博客地址:https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model开源项目:https://github.com/turningpoint-ai/VisualThinker-R1-ZeroDeepSeek-R1的独特推理能力,能成功扩展到多模态推理领域吗?UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。在台湾大学获得硕士学位,导师是Chih-JenLin教授。

  • 苹果最强M3 Ultra首发逆天,512GB“桌面超算”在家跑DeepSeek-R1

    苹果深夜放大招!昨晚,苹果重磅发布新款MacStudio,配备了地表最强的全新M3Ultra和M4Max芯片。M3Ultra集成了1840亿个晶体管,性能是M1Ultra的2.5倍。新款MacBookAir起售价7999元,凭借其高性价比,仍然是最畅销的笔记本电脑之一。

今日大家都在搜的词:

热文

  • 3 天
  • 7天