一种面向文本序列的高性价比众包工人选择方法及装置

    公开(公告)号:CN115994675A

    公开(公告)日:2023-04-21

    申请号:CN202310284736.5

    申请日:2023-03-22

    Abstract: 本发明涉及众包任务分配技术领域,特别是指一种面向文本序列的高性价比众包工人选择方法及装置,一种面向文本序列的高性价比众包工人选择方法包括:获得样本标注数据集和众包工人集合;建立工人选择初步模型;根据样本标注数据集、众包工人集合和工人选择初步模型进行训练,获得工人选择模型;根据样本标注数据集进行拟人修改,获得标注增强数据集;根据标注增强数据集和工人选择模型进行可靠性测验,获得可靠的工人选择模型;将待标注数据集和待选择众包工人集合输入可靠的工人选择模型,获得众包工人最优选择。本发明有效解决了文本标注任务的众包工人选择问题,提高了注释的质量,降低了总体成本。

    一种利用发音属性和参考文本的发音偏误检测方法及装置

    公开(公告)号:CN114999526B

    公开(公告)日:2023-03-21

    申请号:CN202210466983.2

    申请日:2022-04-29

    Inventor: 解焱陆 陈琪

    Abstract: 本发明公开了一种利用发音属性和参考文本的发音偏误检测方法及装置,所述方法包括:提取二语学习者语音帧的发音属性,得到第一发音属性序列;将参考文本中的标准音素序列映射到发音属性,得到第二发音属性序列;采用逐块注意力机制,将第一发音属性序列和第二发音属性序列进行分块对齐;对齐后提取音素向量,并与声学特征和发音特征拼接后作为检测模型的输入,进行发音偏误检测。本发明在发音偏误检测任务中加入参考文本信息,采用逐块注意力机制,利用发音属性作为约束条件将参考文本和二语学习者的语音分块对齐,利用参考文本中有效信息的同时避免了引入误导性信息和造成对误发音的错误接受,提升了系统音素识别能力和发音偏误检测能力。

    一种中文文本智能分级改编方法及装置

    公开(公告)号:CN115600575B

    公开(公告)日:2023-03-14

    申请号:CN202211524750.X

    申请日:2022-12-01

    Inventor: 殷晓君

    Abstract: 本发明涉及自然语言处理技术领域,特别是指一种中文文本智能分级改编方法及装置,方法包括:获取文本数据,对文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子;获取目标等级,根据目标等级,在分级文本库中确定原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定原始句子和参考句子之间的词相似度矩阵;根据词相似度矩阵,确定原始句子与参考句子的词对应关系列表;根据原始句子与参考句子的词对应关系列表、原始句子以及参考句子,生成目标句子。采用本发明,可以提高改编效率,减少人为错误。

    一种基于规则的树库自动转换方法及系统

    公开(公告)号:CN115292549B

    公开(公告)日:2022-12-20

    申请号:CN202211224562.5

    申请日:2022-10-09

    Abstract: 本发明提供了一种基于规则的树库自动转换方法及系统,涉及自然语言处理技术领域。包括:将输入的短语结构字符串进行多叉树数据结构构造;初始化xml存储根节点xml_root对象;对多叉树进行先序遍历;判断句子中是否存在小句,若不存在则进行规则转换流程;遍历每个子节点,判断子节点是否符合句法成分转换规则以及句式转换规则,新建xml_root的子节点;对终端节点进行词性规则的转换,根据词性转换规则表将其转换为句式结构树库的词性;将更新的xml_root转换为xml字符串,生成xml文件。充分利用短语结构树库和句式结构树库的标注体系的对应规律,为建立高质量的树库转换模型和句式结构句法分析器提供了有效的数据支持,对句式结构自动句法分析等研究具有重要意义。

    一种基于原生Bert架构的文本分级方法及装置

    公开(公告)号:CN115374252A

    公开(公告)日:2022-11-22

    申请号:CN202211291117.0

    申请日:2022-10-21

    Abstract: 本发明涉及文本分级技术领域,特别是指一种基于原生Bert架构的文本分级方法及装置,方法包括:在原生Bert模型的词表中,增加一个新的特殊标记[LEVEL];获取初始训练样本并进行预处理,预处理后的训练样本的序列形式为[CLS]W1W2W3...Wn[SEP]K,其中,W1W2W3...Wn表示训练样本的文本,K表示训练样本的特殊标记[LEVEL]的参数值,即训练样本对应的复杂度等级;基于训练样本,对预训练的原生Bert模型进行fine‑tuning训练,得到训练好的复杂度分级模型;对初始待分级文本进行预处理,将预处理后的待分级文本输入到训练好的复杂度分级模型中,得到初始待分级文本对应的复杂度等级。采用本发明,可以更加简洁的将Bert模型应用到文本分级任务中,减少参数量,降低模型复杂度。

    一种利用有序信息的文本分级方法及装置

    公开(公告)号:CN114996464B

    公开(公告)日:2022-10-21

    申请号:CN202210845265.6

    申请日:2022-07-19

    Abstract: 本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。方法包括:根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。采用本发明,通过将一个多分类问题转化为多个二分类问题,有效利用了文本等级固有的有序性信息,提升了文本分级的准确率。

    一种利用有序信息的文本分级方法及装置

    公开(公告)号:CN114996464A

    公开(公告)日:2022-09-02

    申请号:CN202210845265.6

    申请日:2022-07-19

    Abstract: 本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。方法包括:根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。采用本发明,通过将一个多分类问题转化为多个二分类问题,有效利用了文本等级固有的有序性信息,提升了文本分级的准确率。

    长笔段的处理方法和装置
    58.
    发明授权

    公开(公告)号:CN109359529B

    公开(公告)日:2021-11-30

    申请号:CN201811058581.9

    申请日:2018-09-11

    Inventor: 安维华

    Abstract: 本发明公开了一种长笔段的处理方法和装置。其中,该方法包括:在判断汉字的骨架笔段为长笔段的情况下,删除靠近三叉点的预定长度的骨架笔段得到部分长笔段,其中,长笔段是指与原始静态汉字的实际书写笔迹路径相一致、不存在细化歧义的骨架笔段,三叉点是指三个长笔段共有的邻接点;预定长度的骨架笔段是在长笔段的阈值范围内的长笔段的一部分;判断部分长笔段是否能够拟合为平滑直线段;将能够拟合为平滑直线段的部分长笔段拟合为一条平滑的直线段。本发明解决了现有技术在汉字笔段消歧过程中无法自动处理笔段歧义畸变的技术问题。

    基于预训练语言模型的上下文敏感的释义生成方法及系统

    公开(公告)号:CN112364639B

    公开(公告)日:2021-09-07

    申请号:CN202011121675.3

    申请日:2020-10-19

    Abstract: 本发明公开了一种基于预训练语言模型的上下文敏感的释义生成方法及系统,该方法包括:获取训练数据集;其中,训练数据集中包括被释义词、被释义词所在的上下文,以及被释义词对应的释义;构建用于为被释义词生成释义的释义模型;其中,释义模型基于编码器‑解码器框架,释义模型的编码器为预训练的语言模型;基于所述训练数据集,对所述释义模型进行训练;通过训练好的释义模型,基于待释义的被释义词和所述待释义的被释义词的上下文的分布式向量表示,生成所述待释义的被释义词的释义。本发明具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为被释义词准确生成释义的问题。

    一种文本可读性自动评估方法及装置

    公开(公告)号:CN113343690A

    公开(公告)日:2021-09-03

    申请号:CN202110692831.X

    申请日:2021-06-22

    Abstract: 本发明公开了一种文本可读性自动评估方法及装置,该文本可读性自动评估方法包括:构建适用于汉语母语学习者的汉字难度等级表;其中,所述汉字难度等级表中包括待评价难度的汉字和各待评价难度的汉字所对应的难度等级;根据所述汉字难度等级表,获取待评估文本中每一汉字的难度等级信息;将汉字的难度等级信息与图神经网络结合,实现对待评估文本可读性的自动评估;其中,句子的可读性评估被转换为图节点分类任务,段落及篇章的可读性评估被转换成图分类任务。本发明对文本的分析更加有针对性,评估效果更好。

Patent Agency Ranking