我花了2天，找到了我觉得翻译质量的AI大模型。

2025-03-13 09:08 · 稿源：数字生命卡兹克公众号

声明:本文来自于微信公众号数字生命卡兹克，作者:数字生命卡兹克，授权站长之家转载发布。

做AI自媒体的人，读前沿学术论文，跟着补课，提升自己的知识体系自然是少不了的。

仅仅是为了跟上这个时代，就已经得拼尽全力不掉队了。

但是吧，不怕各位笑话，我的英语真的很差，最熟练的喊出来的那句英语是:

I'fine，thank you，and you?

真的，在读各种文献的过程中，即使已经用大模型加持翻译了，但是还是受尽了各种折磨。

就比如昨天豆包发了个AI图像的论文。

我寻思着翻一下之前他们SeedEdit的论文，对照着学习一下。

就是这个。

别的论文我不太懂，但是这类AI的论文呢，一般上下文逻辑咬的很死，并且充斥着大量高度专业化的术语和学术表达。

像是:Out-of-Domain （OOD）、DiT架构这类词很多。

光是专业学术用语部分，倒也还好。但遇见一些专业术语搭配复杂表达方式的文段，我说实话，我现在一般用沉浸式翻译搭配OpenAI或者DeepL的API，翻译起来还是懵逼。

很多时候，它对于专业术语，即便不懂也要硬翻。对于我这种非专业的人来说，看起来就真的很费劲。

正好最近又看了玉渊潭天做的关于AI翻译质量的策划，非常牛逼。所以我也想，不如我自己也评测一下。

看看在这个场景下，到底哪个大模型，翻译质量最好。

说干就干。

于是，我跟小伙伴肝了2天时间，测了N多题，找到了我们认为，目前翻译效果最好的大模型。

直接说结论:网易有道这个老牌翻译厂商出的AI大模型子曰翻译2.0，居然吊打了一切。。。

说说我们是怎么测大模型的翻译评测这块的。

测试的维度也很简单，就从我平常受到的折磨体验出发，梳理出了2点。

这些AI必须:

1. 说人话;2. 没活别瞎翻。

第一点，说人话。好解释，翻译内容符合中国人的语言习惯。

第二点，没活别瞎翻，就更好说了。专业术语和一些专有名词，要是不会翻可以不翻，但别硬翻。其他内容基本正确就行。

在选手上，我选了海外的Grok3，ChatGPT-4o、Claude3.7、Gemni2这标准四人组。国内我把能跑的也都跑了，不过受制于篇幅，文章里面我就只展示DeepSeek R1、智谱GLM-4、有道子曰翻译2.0、Qwen2.5-Max这四人组了。

DeepSeek R1是唯一一个推理模型，虽然理论上我也不应该用推理模型来测翻译，因为不实用。。。但是谁叫人实在太火了呢= =

我给这这些大模型出的第一道题，就是SeedEdit这篇论文里的一个稍微复杂点的段落，涉及了一堆高频专业术语，还包含学术引用信息、作者姓名。

先看国产。

说人话方面。

Qwen和智谱GLM在说人话上都需要加强，最具代表性的句子就是这个:

Qwen:我们注意到，我们的方法主要聚焦于HQ-Edit基准中的应用场景，在这些场景中，我们希望根据任意指令对T2I生成的图像进行修改。

智谱GLM:我们注意到，我们的方法主要关注 HQ-Edit 基准中的应用场景，我们希望用任意指令修改 T2I 生成的图像。

一个句子中就能出现三个同样的主语，读起来就非常的难受，并且断句也很奇怪。

子曰翻译2.0的表现倒是非常的棒。它的主语滥用较少，避免了一大坨过度重复的代词。尤其在处理“that”和“where”这类句式时，表现不错。

DeepSeek比起子曰翻译2.0，人话输出上稍微弱了一点，翻译腔的机械感重了一点。很明显的例子就是第一句话，不够简洁，主语消失了。

没活别硬翻方面，子曰翻译2.0和DeepSeek都明显好一点。

对Out-of-Domain （OOD） test的处理上，只有Qwen翻译成了跨领域测试。智谱GLM和Qwen对real in-the-wild image inputs的翻译都有点难顶。。。其实，直接翻成真实场景的图像输入就行。

国外组这边，在英译中的表现上都要比国内组的要稍微差点，那英式中文的感觉实在挥之不去，读起来非常的不流畅。

这里面表现最好的就是ChatGPT-4o。它的翻译整体上是清晰且准确的，算是比较好地展现了原文的技术内容和学术语气。

Gemini和Claude基本属于一个级别的，人话输出差点儿意思。

Grok3的表现也还行，但还是那个老毛病:主语疯狂堆叠。

这第一道题还只是学术论文中，比较“正常”的一段，理解语义的难度不算太高。

但是当你看硬核技术论文的时候，我不知道你们有没有跟我一样的感觉:AI面对正文中的内容时，表现可能还好。但当对象变为图注内容时，很大概率开始抽风。

因为SeedEdit这篇论文里，图注部分没有什么复杂的段落，我就从经典神文《Attention is all you need》里摘出来了一段，作为第二道大题。

这回，就能很明显地感受到各个AI大模型在面对这种隐性语境限制的情况下，翻译英文的能力了。

开头的第一个长难句，其实就是对图片的一个总结，怎么简洁怎么来。

智谱GLM对图注语境下的长难句的理解有点不到位。

DeepSeek、Qwen则选择在中间进行断句，无功无过。但是在结尾处，这两位都选择“建议以彩色查看”，在学术语境中语气稍显随意了些。但也没大问题。

子曰翻译2.0在一句话的表现非常简洁，很符合一个正常学术图注的规范。但是，也出现了个小问题。因为heads这个单词在前一句出现过了，子曰翻译2.0直接在下一句省略了，给翻译成了不同颜色代表不同的头，这其实会带来一些理解压力。

Gemini和GLM一样的毛病，ChatGPT-4o直接把第一句的following硬翻译成了追踪，Pass。

Claude对第一个句子的翻译，也是尬的一批，6层xxx的第5层中。没有人这么说话的。

除了上面两道对象是纯文本的测试题，日常看论文时，另一个特别让我看了心情复杂的一点就是，文本中被插入一堆数学符号。翻译器很容易被搞懵逼。

所以我也就把这一点作为第三大题，测试下这八个模型是怎么处理这些数字符号的。

文本还是用的《Attention Is All You Need》里的一段嵌入数学公式的内容。

总体来看，各家AI大模型对于内嵌数学公式的理解，其实都表现的还挺好的。

尽管 d² 的数学符号格式在排版上，有些模型处理的不够规整，但逻辑表达并没有什么混乱。

DeepSeek和子曰翻译2.0在处理技术性内容时，能够兼顾术语的准确性与说人话的表达方式，这一点明显胜过其他几个模型。

我在做这个测试的时候，还发现了一个很明显的点，就是最后一句话。

xxx，the approach we take in our model.

很明显地，这句话不应该与前一句区分开。

因为在中文语境中，它实际上是对前述内容的补充说明。但是除了子曰翻译2.0外的七家大模型，全都给隔离翻译了。

一个逗号，给7个大模型都忽悠过去了。。。

一套流程全部测下来，只说中英互译的话，你会很明显地感受到在说人话方面，有道这个子曰翻译2.0，是真的让我意外的觉的牛逼。

在没活别硬翻上，DeepSeek R1、子曰翻译2.0，ChatGPT-4o基本算是一个梯队的，专业术语知道保留，不瞎玩。

至少在我自己的测试中，最让我意外的一点，还是有道的子曰翻译2.0是效果最好的，这个点其实蛮让我意外。

但是同时也确实验证了一个“共识”。

在垂直场景里，这些积累了N多年数据的行业巨头，手上握着的资源和数据，确实不是一些通用大模型公司能匹敌的。

在我找出了我觉得目前最好的翻译大模型，准备就让它以后来帮我看论文读技术文章的时候，我发现。。。

沉浸式翻译没给子曰翻译2.0留API接口，接不进去。。。

而有道自己的产品虽然做的很不错，但是对于我这种每天在各种英文网站里来回蹦跶还要刷X和在arXiv上扒拉论文的人来说，体验路径确实有一点长。。。

这一下子给我整不会了。。。

不过如果是习惯用应用的，或者是手机主力党，那我还是无脑推荐你去有道他们自己的产品里面用。

比如他们的有道翻译和有道词典。

截图翻译、PDF翻译啥的都全乎，同传啥的也都有，这个里面的AI翻译就是子曰翻译2.0。

但是最可惜的就是没有我想要的浏览器翻译插件。

所以，在我犹豫了1分钟之后，为了方便，不用来回多开页面，省下时间安心做科普阅读。

我还是做了一个非常傻der的决定。

自己用AI手搓一个能接子曰翻译2.0API的论文专用的翻译器插件。。。

EMMMMMMM。

这个插件翻译效果是这样子的。

这个翻译插件的用户体验效果肯定没有那些商用插件好，但是吧，也是一个无奈之举。翻译质量，比体验重要。

老规矩，这个插件我也放在了公众号后台里，大家随意取用，直接公众号后台私信我"fy"，系统就会自动发送你文件了。

插件的安装和API的接入，其实都特别简单。

先说API怎么获取。

直接进下面有道的AI开放平台申请API:

https://ai.youdao.com/modelTranslation.s

在最上面的导航栏里，选择产品服务，里面有个大模型翻译，点击即可。

选择立即使用。

在左侧导航栏里选择自然语言翻译服务里的大模型翻译，点击创建应用。

应用名称可以随便写，我写的是:PDF翻译，选择服务栏里要选:大模型翻译，接入方式选:API，应用类别直接选:实用工具。

选完这四项，直接点确认就行。

下面这俩其实就是你的应用ID和秘钥了。

在有道API平台，一实名注册就会送50块钱的体验金。。。

基本够用一阵子了，大概能高质量地处理个三五千页PDF。

至于我手搓的论文翻译插件的安装也很简单。

按下面的指导图，一步一步来就行。

第一步就是解压缩我给你的翻译插件.zip。

然后打开谷歌浏览器，点右上方三个点按钮，进入管理扩展程序。

一键把文件拖进来，就能自动安装。

打开扩展程序按键，把【卡兹克论文译霸】置顶。

点击这个设置按钮。

输入你在有道API云平台，注册得到的API key和API Secret，点保存设置就能用了。

安装好插件，你刷新一下arXiv，你就会发现右边就有个【在线查看中文翻译版】的按钮。

点进去后，即可开始纯享版论文翻译。你可以点击隐藏原文，直接就是个子曰翻译出来的中文版。也可以，一键改变布局，原文译文排版，就像下面这样。

也支持，图文混排。

一些网页也行。

整个流程，真的几分钟就能搞定。

接下来就能在中英互译的论文世界里遨游了。

说实话，我这个手搓的小插件，很蹩脚，如果有道或者沉浸式翻译能看到我这篇文章，我希望:

要么有道出个插件，要么沉浸式翻译支持一下有道的API吧。。。

真的，我觉得浏览器翻译这个场景，还是蛮刚需的。

当然，如果你觉得这个插件太矬了（确实也挺挫），那也可以把PDF下载下来，扔到有道翻译里面直接翻译。

或者直接用他们的截图翻译吧。

不过，如果你跟现在的我一样，就喜欢浏览器上苦读英文文献，也追求翻译质量，那我觉得，真的可以考虑凑合用一下我这个小破插件。

祝我们都能在AI和翻译的世界里越走越远，再也不用为语言门槛而挠头懊恼。

愿你我的AI路上，都能走的更远。

共勉。

（举报）

相关推荐

关键词：

国产大模型再上一分！有道大模型翻译质量实测达全球之首

当业界还在热议DeepSeek-R1开源战略对AI生态的重构、持续探讨Manus智能Agent的技术突破时，国产大模型已在垂直赛道实现关键性跨越。3月11日，网易有道宣布完成翻译底层技术迭代，基于自主研发的子曰翻译大模型2.0，在测试中实现翻译质量超越国内外主流通用大模型，达行业之首。”网易有道相关负责人表示。

DeepSeek-R1 Manus智能Agent 国产大模型

4天前
宣称翻译质量全球第一！网易全平台升级有道子曰翻译大模型

今天网易有道宣布完成翻译底层技术迭代，基于自主研发的子曰翻译大模型2.0，在测试中实现翻译质量超越国内外主流通用大模型，达行业第一。目前搭载全新大模型的翻译已在有道词典、有道翻译及有道翻译官内上线，提供标准模型、高级模型两种不同参数选择，有道词典笔X7系列也已升级为最新的翻译大模型，其余型号将陆续更新。在涵盖人文学科、商科、生活服务、医疗、科学等19个垂直领域的多学科对比测试中，子曰翻译大模型2.0在专业性、准确性、语言惯例和风格等方面，展现出了更高的翻译准确率、流畅度，模型翻译质量达到行业第一。

网易有道翻译技术子曰大模型

3天前
荐拼多多AI大模型暗战

相较于阿里、京东等电商老大哥在AI大模型布局上的如火如荼，有黑马之称的拼多多却失声了。拼多多不仅在AI大模型上没有大动作，即便是在国内外公司热火朝天接入Deepseek的当下，拼多多也“稳如泰山”，丝毫没有要凑热闹的意思。拼多多能否再次上演一场“后来居上”的奇袭?没人知道答案。

拼多多 AI大模型电商推荐

17天前
中国首个！罕见病AI大模型正式进入临床应用

北京协和医院宣布，该院与中国科学院自动化研究所共同研发的协和太初”罕见病大模型已经正式进入临床应用阶段。该模型的研发基于我国罕见病知识库的多年积累和中国人群基因检测数据支撑，是国际首个符合中国人群特点的罕见病大模型。这一大模型的初诊咨询和预约功能已面向患者开放测试，后续将接入北京协和医院罕见病联合门诊的线上诊疗服务，未来还将逐步推广至全国罕见病诊疗协作网医院。

罕见病人工智能医疗科技

18天前
迅雷：用户下载AI大模型提供免费加速服务

为满足广大AI开发者、数据科学家及研究人员对海量数据和前沿模型的迫切需求，迅雷出手了。将针对下载AI大模型及数据集文件的迅雷用户，提供批量下载服务，这一功能解决了长期困扰开发者下载慢、耗时长”的难题。迅雷就宣布将在杭州成立AI全球总部迅雷已在AI领域进行了一些积极的探索，比如把AI用于优化下载。

迅雷 AI开发者数据集下载

25天前
荐还得是上海！百亿级大模型项目现场对接，只用3天

DeepSeek彻底引爆大模型应用落地。国民级APP争相接入，手机、汽车、甚至扫地机器人都来凑热闹，借着DeepSeek的东风，不断刷新自身“AI浓度”。AI润物细无声，却又改变了一切的一切，这或许正是大众所期待的，追寻AGI的意义之一。

大模型应用 AI技术趋势 DeepSeek

19天前
荐在大模型上没啥动静的美团，正在用另一种方式开抢AI的船票

中国互联网公司正集体迎来资产重估，科技是最根本的推力。最近一家强调科技的巨头是美团。如果真的要拿到AI时代的船票，在投资先行之后，美团自己的动作也该快速跟上了。

大模型

5天前
荐当平价轻薄本也能跑本地大模型，AI PC才有了未来

前言:测过“非AIPC”后，我们又来折腾核显轻薄本了前段时间，我们三易生活出于技术层面的好奇心，尝试使用两台不具备NPU的“老电脑”运行了一些AIPC时代的软件，并撰写了《用“非AIPC”运行AI应用后，我们发现了这些真相》。结果我们发现，由于CPU和GPU上的“AI加速指令集”以及“AI加速单元”实际上诞生的时间，要远早于AIPC这个概念，以至于在刻意使用较老的PC硬件时，�

AI PC 轻薄本

8天前
迅雷为广大 AI 开发者提供大模型批量下载加速服务

为满足广大AI开发者、数据科学家及研究人员对海量数据和前沿模型的迫切需求，迅雷将针对下载AI大模型及数据集文件的迅雷用户，提供批量下载服务，这一功能解决了长期困扰开发者“下载慢、耗时长”的难题。为了更好地助力AI行业发展，迅雷还将对AI大模型平台的迅雷用户提供下载加速服务。此次全新服务，依托迅雷自主研发的高速传输技术和智能加速算法，无论是面对超大数据集还是高容量模型，助力您的下载速度提升，从大大缩短等待时间，以及助力科研实验、模型训练与产品开发的高效推进。

AI大模型数据集下载迅雷下载服务

25天前
马斯克宣布Grok 3大模型2月18日发布：它是地球上最聪明的AI 比任何已发布产品都强

今日，马斯克宣布，地球上最聪明的AI”Grok3大模型将于太平洋时间周一晚上8点发布，届时将进行现场Demo演示。马斯克表示：Grok3具有极强推理能力，在我们迄今为止所做的测试中，其表现优于我们所知的任何已发布产品。Grok3计算量比Grok2高10倍，预估将引入思维链”推理能力，让其能够像人类认知过程一样逐步处理复杂任务。

Grok 3 马斯克

27天前

热文

3 天
7天

我花了2天，找到了我觉得翻译质量的AI大模型。

国产大模型再上一分！有道大模型翻译质量实测达全球之首

宣称翻译质量全球第一！网易全平台升级有道子曰翻译大模型

荐拼多多AI大模型暗战

中国首个！罕见病AI大模型正式进入临床应用

迅雷：用户下载AI大模型提供免费加速服务

荐还得是上海！百亿级大模型项目现场对接，只用3天

荐在大模型上没啥动静的美团，正在用另一种方式开抢AI的船票

荐当平价轻薄本也能跑本地大模型，AI PC才有了未来

迅雷为广大 AI 开发者提供大模型批量下载加速服务

马斯克宣布Grok 3大模型2月18日发布：它是地球上最聪明的AI 比任何已发布产品都强

热文

俞敏洪将回赠雷军15袋大米：称送雷军英语课太累着他了10.13万热度

三年2000万台！京东与小米签大单：将联合开发免流量摄像机2.15万热度

华为官宣Pura新品品牌挚友姚安娜将于3月20日正式发布2.10万热度

说雷军？董明珠：有人炒高股价成首富产品不能只靠低价1.90万热度

网民利用AI生成明星“澳门赌博输10亿”谣言被拘留1.61万热度

Windows 10今年结束支持！谷歌拉拢用户：我们免费、要求还低1.50万热度

快手直播：将集中整治利用养生内容引流违规交易行为1.33万热度

交个朋友回应切片带货课程“割韭菜”争议:全面下架并澄清收费内1.16万热度

董明珠回应格力造车进展：不做家用车是战略选择1.15万热度

不只是宇树，中国机器人火爆外网，最大优势是买得到且物美廉价87.10万热度

周鸿祎谈996加班：加班要自愿才行如果不热爱就不要加班14.17万热度

俞敏洪将回赠雷军15袋大米：称送雷军英语课太累着他了10.13万热度

海底捞10倍补偿小便事件4109单顾客海底捞已起诉两名小便男子9.46万热度

大学退休教授63小时卖出753台问界华为余承东亲自感谢7.31万热度

微信灰度测试上线：朋友圈视频延长至5分钟，创作者福音！4.72万热度

雷军：我真的不能接受采访了多说几句又挂三条热搜4.65万热度

00后用DeepSeek一天卖出3.3亿！交个朋友：数据真实4.21万热度

董明珠说为格力省了十几亿广告费：董明珠三个字代表诚信和品质2.90万热度

顾茜茜抖音账号被永久封禁曾自曝“日入超30万元”引发争议2.80万热度

美的回应强制18点20下班：正是我们消息属实234.10万热度

站长商机