![基于Spark的大规模短语翻译模型的训练方法](/CN/2016/1/69/images/201610346396.jpg)
基本信息:
- 专利标题: 基于Spark的大规模短语翻译模型的训练方法
- 申请号:CN201610346396.4 申请日:2016-05-23
- 公开(公告)号:CN106055543B 公开(公告)日:2019-04-09
- 发明人: 黄宜华 , 周娟 , 顾荣 , 杨文家 , 黄书剑
- 申请人: 南京大学
- 申请人地址: 江苏省南京市汉口路22号
- 专利权人: 南京大学
- 当前专利权人: 南京大学
- 当前专利权人地址: 江苏省南京市汉口路22号
- 代理机构: 苏州威世朋知识产权代理事务所
- 代理人: 杨林洁
- 主分类号: G06F17/28
- IPC分类号: G06F17/28 ; G06F16/182 ; G06K9/62
摘要:
本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。
公开/授权文献:
- CN106055543A 基于Spark的大规模短语翻译模型的训练方法 公开/授权日:2016-10-26