-
公开(公告)号:CN112199963B
公开(公告)日:2024-12-20
申请号:CN202011063600.4
申请日:2020-09-30
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/56 , G06F40/58 , G06F40/284 , G06F40/295 , G06N3/0455 , G06N3/08
Abstract: 本发明实施例提供了一种文本处理方法、装置和用于文本处理的装置。其中的方法包括:对原文本进行向量化处理,得到原文本向量;将所述原文本向量输入第一模型,通过所述第一模型输出目标文本,所述原文本和所述目标文本对应相同的语言,所述第一模型包括拷贝网络,所述拷贝网络用于在所述目标文本中保留所述原文本中的拷贝文本,所述第一模型基于第一语言对应第二语言的翻译平行语料以及第二模型的输出结果训练得到,所述第二模型用于将第一语言的文本翻译为第二语言的文本。本发明实施例可以提高文本润色的效率和准确性。
-
公开(公告)号:CN111414766B
公开(公告)日:2024-01-30
申请号:CN201811550852.2
申请日:2018-12-18
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/58 , G06F40/295
Abstract: 本申请实施例公开了一种翻译方法及装置,具体为,首先获取用户输入的自定义实体信息;并根据该自定义实体信息,识别出待翻译文本中与该自定义实体信息对应的自定义实体,然后将待翻译文本中的自定义实体替换为实体标签。最后,对待翻译文本进行翻译,生成目标语言文本,且该目标语言文本中保留实体标签。当用户查看翻译后的目标语言文本时,可以根据目标语言文本中保留的实体标签,快速定位自定义实体所在的位置,提高修正译文的效率。
-
公开(公告)号:CN111414766A
公开(公告)日:2020-07-14
申请号:CN201811550852.2
申请日:2018-12-18
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/58 , G06F40/295
Abstract: 本申请实施例公开了一种翻译方法及装置,具体为,首先获取用户输入的自定义实体信息;并根据该自定义实体信息,识别出待翻译文本中与该自定义实体信息对应的自定义实体,然后将待翻译文本中的自定义实体替换为实体标签。最后,对待翻译文本进行翻译,生成目标语言文本,且该目标语言文本中保留实体标签。当用户查看翻译后的目标语言文本时,可以根据目标语言文本中保留的实体标签,快速定位自定义实体所在的位置,提高修正译文的效率。
-
公开(公告)号:CN107168958A
公开(公告)日:2017-09-15
申请号:CN201710339907.4
申请日:2017-05-15
Applicant: 北京搜狗科技发展有限公司
IPC: G06F17/28
CPC classification number: G06F17/289
Abstract: 本发明实施例提供一种翻译方法和装置,所述方法包括:获取源语言文本,识别所述源语言文本是否包含固定语义单元;当识别出所述源语言文本中包含固定语义单元时,获取所述固定语义单元的源语言释义;所述源语言释义通过解释所述固定语义单元的含义得到;对所述源语言释义进行翻译,得到以目标语言表示的翻译结果;所述目标语言与所述源语言属于不同语种。本发明实施例可以识别出源语言文本中的固定语义单元,并获取其释义,利用所述释义得到目标语言的翻译结果,准确率高、覆盖范围广。
-
公开(公告)号:CN113343647B
公开(公告)日:2024-08-16
申请号:CN202110730117.5
申请日:2021-06-29
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/154 , G06F40/157 , G06F40/242 , G06F40/279 , G06F40/58
Abstract: 本申请实施例公开了一种句对匹配方法、装置和用于匹配句对的装置。该方法的实施例包括:从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,句段集中的每个句段包括目标语言的语句以及语句的上下文;将双语数据集中的双语句对与句段集中的句段进行匹配;双语句对中包括源语言的第一语句和对应目标语言的第二语句;对于双语数据集中的每一个双语句对,确定句段集中与双语句对相匹配的句段,将网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,与双语句对相匹配的句段为同时包含双语句对中的第一语句与第二语句的句段。该实施方式提高了句对匹配效率。
-
公开(公告)号:CN112926343A
公开(公告)日:2021-06-08
申请号:CN201911244080.4
申请日:2019-12-06
Applicant: 搜狗(杭州)智能科技有限公司 , 北京搜狗科技发展有限公司
IPC: G06F40/58
Abstract: 本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本;相对于现有技术直接对源语言文本中文字进行编码而言,本发明实施例能够对源语言文本进行更细粒度的编码,从而能够提高机器翻译模型翻译的质量。
-
公开(公告)号:CN112199963A
公开(公告)日:2021-01-08
申请号:CN202011063600.4
申请日:2020-09-30
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/56 , G06F40/58 , G06F40/284 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明实施例提供了一种文本处理方法、装置和用于文本处理的装置。其中的方法包括:对原文本进行向量化处理,得到原文本向量;将所述原文本向量输入第一模型,通过所述第一模型输出目标文本,所述原文本和所述目标文本对应相同的语言,所述第一模型包括拷贝网络,所述拷贝网络用于在所述目标文本中保留所述原文本中的拷贝文本,所述第一模型基于第一语言对应第二语言的翻译平行语料以及第二模型的输出结果训练得到,所述第二模型用于将第一语言的文本翻译为第二语言的文本。本发明实施例可以提高文本润色的效率和准确性。
-
公开(公告)号:CN112926343B
公开(公告)日:2024-11-05
申请号:CN201911244080.4
申请日:2019-12-06
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/58
Abstract: 本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取源语言文本;依据文字要素信息对所述源语言文本中各文字进行编码,得到所述源语言文本对应的编码信息;采用机器翻译模型依据所述源语言文本对应的编码信息,将所述源语言文本翻译为目标语言文本;相对于现有技术直接对源语言文本中文字进行编码而言,本发明实施例能够对源语言文本进行更细粒度的编码,从而能够提高机器翻译模型翻译的质量。
-
公开(公告)号:CN113326706A
公开(公告)日:2021-08-31
申请号:CN202110732653.9
申请日:2021-06-29
Applicant: 北京搜狗科技发展有限公司
IPC: G06F40/58 , G06F40/258 , G06F16/33 , G06F16/335
Abstract: 本申请实施例提供了一种跨语言检索方法和装置,所述方法包括:获取用户的检索请求;所述检索请求包括第一语言的查询词;根据所述第一语言的查询词进行检索,得到第二语言的检索结果;所述检索结果包括第二语言的标题和第二语言的摘要;采用预先训练的翻译模型,基于所述第二语言的标题和所述第二语言的摘要,对所述第二语言的标题进行翻译得到第一语言的标题;以及对所述第二语言的摘要进行翻译,得到第一语言的摘要;返回所述第一语言的标题和所述第一语言的摘要。本申请实施例可以提高翻译准确率,降低出现歧义的概率,并且可以使得标题与摘要的翻译保持一致。
-
公开(公告)号:CN108255940A
公开(公告)日:2018-07-06
申请号:CN201711298752.0
申请日:2017-12-08
Applicant: 北京搜狗科技发展有限公司
IPC: G06F17/30
Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;对所述源语言翻译结果中的所述关键词进行标记显示。本发明实施例可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。
-
-
-
-
-
-
-
-
-