一种基于预训练的字音字形知识增强的中文拼写纠正方法

    公开(公告)号:CN114970503B

    公开(公告)日:2024-10-29

    申请号:CN202210598799.3

    申请日:2022-05-30

    Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。

    基于任务链的大模型语病纠错方法、设备和存储介质

    公开(公告)号:CN118747497A

    公开(公告)日:2024-10-08

    申请号:CN202410884233.6

    申请日:2024-07-03

    Abstract: 基于任务链的大模型语病纠错方法、设备和存储介质,属于语言信息处理技术领域,解决基于大语言模型的语病纠错正确性低问题。本发明方法包括:在输出中找出与输入原句子对应的信息类型,信息类型包括语病范围、语病类型和纠错方式三种类型;对不同粒度的语病范围进行标注,针对每种语病类型,计算自动标注的语病范围与人工标注的语病范围之间的相似性分数,选择相似性分数最高的标注粒度作为最终的语病范围标注结果;将训练集中的所有样本随机排序,按照样本的顺序,将每个样本的三条指令数据加入到训练队列中,依次使用每条指令数据对大语言模型进行指令微调;利用指令微调后的大语言模型进行语病纠错。本发明适用于基于大语言模型的语病纠错。

    一种基于LoRA嵌入的指令数据挖掘方法和系统

    公开(公告)号:CN117556251A

    公开(公告)日:2024-02-13

    申请号:CN202311332989.1

    申请日:2023-10-16

    Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

    一种基于语义特征的中文儿童故事生成方法

    公开(公告)号:CN116681080A

    公开(公告)日:2023-09-01

    申请号:CN202310544489.8

    申请日:2023-05-16

    Abstract: 本发明提出一种基于语义特征的中文儿童故事生成方法。所述方法包括构建中文儿童故事数据集;将儿童故事作为训练数据,通过所设计的引入句子级语义特征的方法对模型进行训练,提升模型生成的连贯性;将关键词或者儿童故事开头输入模型;模型通过自编码迭代生成预先设定长度的中文儿童故事。本发明可以在给定关键词或故事开头的情况下,自动生成完整的儿童故事,无需人工处理。本发明可以用于创作儿童故事。

    一种基于多任务学习和注意力机制的英文语法纠正技术

    公开(公告)号:CN116681061A

    公开(公告)日:2023-09-01

    申请号:CN202310630375.5

    申请日:2023-05-31

    Abstract: 一种基于多任务学习和注意力机制的英文语法纠正技术,它涉及一种英文语法纠正技术。本发明为了解决现有英文语法纠正技术适应能力较差,对一些复杂语句的语法纠正不准确的问题。本发明的步骤为:对于输入的句子,从数据库中读取英文分词词表及编辑标签词表;将句子输入预训练编码模型,获取整个句子的上下文表示;将得到的上下文特征向量经过自注意力层;判别输入子词是否需要进行编辑操作,使用词表大小的分类器对输入的子词进行编辑标签分类;根据模型预测的纠正标签对应的意义对输入句子中的单词进行后处理,得到的后处理结果再输入模型进行多次迭代得到最终结果。本发明属于自然语言处理技术领域。

    一种面向法律文本的多关系中主要关系的抽取方法

    公开(公告)号:CN113377916B

    公开(公告)日:2023-03-24

    申请号:CN202110693377.X

    申请日:2021-06-22

    Abstract: 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的序列标注方式,构建特定语料库;步骤4:利用步骤3的特定语料库,训练特定领域任务的识别模型,处理模型预测后的标注结果,将标注结果转换为关系输出,并结合已有特定关系输出输入法律文本的关系并确认主要关系。本发明用以解决领域内知识体系复杂,实体间关系重叠性较高,上下文依赖性较强,提及关系抽取困难的问题。

    一种基于语料合并的无监督双语词典构建方法

    公开(公告)号:CN113343672B

    公开(公告)日:2022-12-16

    申请号:CN202110685974.8

    申请日:2021-06-21

    Abstract: 一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。本方法步骤为:一、根据单语语料训练得到对应的单语词向量;二、根据单语词向量得到映射矩阵W;三、根据映射矩阵W抽取替换单词的词典;四、根据替换词典替换原来单语语料并且合并单语语料为混合语料;五、训练混合语料得到混合词向量;六、分离混合词向量得到新的源语言与目标语言词向量;七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题。

    一种小样本场景下的自然语言理解方法

    公开(公告)号:CN113326360B

    公开(公告)日:2022-12-13

    申请号:CN202110447496.7

    申请日:2021-04-25

    Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。

    一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法

    公开(公告)号:CN115034216A

    公开(公告)日:2022-09-09

    申请号:CN202210606979.1

    申请日:2022-05-31

    Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。

    基于多任务学习的篇章级文本连贯性分类方法

    公开(公告)号:CN113312452B

    公开(公告)日:2022-05-27

    申请号:CN202110667388.0

    申请日:2021-06-16

    Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。

Patent Agency Ranking