发展历史

eCorpus 创立故事:从技术沉淀到破界新生

  2021年的成都,一场关于语言与技术的跨洋对话正在悄然酝酿。

  彼时,Heggy与几位技术伙伴正为一家国际翻译软件巨头(MemoQ、Trados)的中国本地化项目忙碌。他们穿梭于代码与语料之间,将欧美市场的翻译引擎适配到中文语境——却发现,这些“全球领先”的工具在中国复杂的多语种需求面前,始终像戴着镣铐跳舞。

  “为什么中文的‘龙’在德语里要区分‘Drache’(恶龙)和‘Lindwurm’(祥龙)?为什么工程图纸的术语翻译总被系统误判?”团队中的NLP工程师Leo Chen在一次深夜调试中抛出问题。他刚完成对某德国机械企业中文手册的本地化,却因术语库缺失导致“液压阀”被直译为“水压开关”,引发客户投诉。

与此同时,Heggy的电脑屏幕上跳动着另一组数据:他主导的互联网多语种语料采集项目已积累超5000万条平行语料,覆盖电商评论、法律合同、社交媒体等20余个垂直场景。但这些珍贵的数据,却因缺乏自主技术框架而只能沉睡在服务器中。


转折点:语料库的“全球拼图”
  2022年初,一个偶然的机会让团队意识到:单一来源的语料虽能支撑基础翻译,但要让工具真正“懂场景”,必须构建一个多源融合、动态更新的语料生态。

Heggy回忆道:“我们联系了国内十余家头部翻译公司,发现他们手中积压着大量未公开的‘行业语料对’——比如某汽车厂商的德中技术文档、某律所的跨国并购合同。这些数据经过人工校对,质量远高于公开语料。”与此同时,团队与北京外国语大学、上海外国语大学等高校达成合作,获取了学术领域的高精度翻译语料;通过自由译者社区征集到覆盖小语种(如斯瓦希里语、缅甸语)的实战翻译样本;甚至与商务部、贸促会等机构合作,引入了政策文件、国际标准等权威语料。

“最震撼的是某次和自由译者合作。”Leo提到,“一位专攻中东市场的译者提供了5000条阿拉伯语-中文商贸对话语料,里面全是‘如何用当地俚语讨价还价’这种机器翻译根本抓不到的细节。”


技术突破:从“语料堆积”到“场景赋能”
  面对海量但碎片化的语料,团队没有简单“投喂”数据,而是开发了一套语料价值评估体系:

质量维度:通过人工抽检、译者评分筛选出“黄金语料”(如政府公文、专利文献);

场景维度:为每条语料打上“工程”“法律”“电商”等标签,构建垂直领域子库;

时效维度:优先采用近3年的语料,确保术语与行业规范同步(如跨境电商的“直播带货”相关翻译)。

同时,团队借鉴DeepSeek的语义理解能力,开发出“语料动态增强算法”:当用户输入一段关于“光伏组件出口”的文本时,系统不仅会调用已有的中英语料,还能通过语义关联自动激活“太阳能板”“逆变器”等关联术语的翻译规则,甚至结合欧盟最新贸易法规调整表述。


博译通(BridgeL)的“语料基因”
  2025年上线的博译通,其核心优势正是这种“多源语料+场景智能”的融合:

翻译准确性:在工程领域,系统能精准识别“桩基施工”(印尼语“Pondasi Tiang”)与“打桩”(“Pemukulan Tiang”)的语境差异;

文化适配性:在拉美市场,系统会将“龙年促销”自动译为西班牙语“Año del Dragón: Ofertas Especiales”,并添加当地生肖文化注释;

合规保障:针对欧盟CE认证文件,系统能调用政府机关提供的权威语料,确保“安全标准”“电磁兼容”等术语100%符合法规。

一位巴西客户在试用后评价:“博译通翻译的合同里,连‘不可抗力’的葡萄牙语表述都附带了巴西《民法典》第393条的引用链接——这比请本地律师更可靠。

从“语料收集者”到“场景定义者”
  如今,eCorpus的语料库已扩展至2.3亿条,其中40%来自合作伙伴的独家数据,30%源于高校与自由译者的贡献,30%由博译通用户实时反馈生成。Heggy在办公室的语料可视化大屏前指出:“这条曲线代表工程语料的增长,它和我们的东南亚市场收入曲线几乎完全重合——这就是场景的力量。”

“我们曾是他人技术的‘本地化者’,现在要成为中国企业的‘全球化造风者’。”Leo翻开团队早期的项目笔记,上面写着MemoQ的代码注释,而最新一页已换成博译通的场景训练日志。从“适配语言”到“定义场景”,这群技术理想主义者用三年时间证明:真正的全球化翻译,始于语料,终于需求。

“每一份语料,都是一次与世界的对话。”——这是eCorpus语料库墙上的一句话,也是博译通征服全球市场的密码。