-
公开(公告)号:CN115994675A
公开(公告)日:2023-04-21
申请号:CN202310284736.5
申请日:2023-03-22
Applicant: 北京语言大学
IPC: G06Q10/0631 , G06Q10/0639 , G06Q10/04 , G06N20/00
Abstract: 本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
-
公开(公告)号:CN116484811A
公开(公告)日:2023-07-25
申请号:CN202310714039.9
申请日:2023-06-16
Applicant: 北京语言大学
IPC: G06F40/166 , G06N3/0455 , G06F18/214
Abstract: 本发明公开了一种用于多种编辑意图的文本修订方法及装置,涉及自然语言处理技术领域。包括:获取包含多种修订需求且无编辑意图的待修订的句子文本;将句子文本输入到训练好的文本修订任务模型;根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。本发明具有逻辑清晰、适配性强、准确率高、效率高的优点,妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。
-
公开(公告)号:CN115994675B
公开(公告)日:2023-07-04
申请号:CN202310284736.5
申请日:2023-03-22
Applicant: 北京语言大学
IPC: G06Q10/0631 , G06Q10/0639 , G06Q10/04 , G06N20/00
Abstract: 本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。
-
公开(公告)号:CN116484811B
公开(公告)日:2023-09-19
申请号:CN202310714039.9
申请日:2023-06-16
Applicant: 北京语言大学
IPC: G06F40/166 , G06N3/0455 , G06F18/214
Abstract: 本发明公开了一种用于多种编辑意图的文本修订方法及装置,涉及自然语言处理技术领域。包括:获取包含多种修订需求且无编辑意图的待修订的句子文本;将句子文本输入到训练好的文本修订任务模型;根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。本发明具有逻辑清晰、适配性强、准确率高、效率高的优点,妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。
-
公开(公告)号:CN114282515B
公开(公告)日:2022-07-08
申请号:CN202210148591.1
申请日:2022-02-18
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
-
公开(公告)号:CN114282515A
公开(公告)日:2022-04-05
申请号:CN202210148591.1
申请日:2022-02-18
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
-
-
-
-
-