自然语言识别方法、装置、设备及存储介质

    公开(公告)号:CN119886061A

    公开(公告)日:2025-04-25

    申请号:CN202411831367.8

    申请日:2024-12-12

    Abstract: 本申请涉及一种自然语言识别方法、装置、计算机设备以及计算机存储介质,该方法包括:针对待处理的自然语言,提取所述自然语言中的关键信息,其中所述关键信息包含至少一种语言的信息;在标准化词库中,根据术语词库关联行,确定所述关键信息对应的标准数据的格式,其中所述术语词库关联行用于表示自然语言和标准数据的格式的对应关系。能够实现高效的分销,对供应商提供的床型描述进行准确的解析,并将其转换为统一的标准床型数据。

    一种同义词检索方法和装置

    公开(公告)号:CN114691834B

    公开(公告)日:2025-04-15

    申请号:CN202210355598.0

    申请日:2022-04-06

    Abstract: 本申请提供了同义词检索方法和装置,方法包括:获取来自第一应用系统的查询语句;从同义词缓存维护的若干应用系统分别对应的同义词列表中,确定第一应用系统对应的同义词列表,作为目标同义词列表;从目标同义词列表中获取检索词对应的同义词和同义词权重,并根据检索词、检索词对应的同义词和同义词权重,生成新的查询语句;基于新的查询语句和第一应用系统对应的索引信息,对第一应用系统上的信息进行检索。本申请在同义词缓存中维护同义词列表,从而在建立索引时仅需针对分词器词库中包含的每个词建立索引信息即可,节省了索引信息占用的磁盘空间,并且基于同义词权重能够区分原词与同义词的重要程度,且提高了检索结果的召回率。

    基于文本编辑技术的文本生成模型的训练方法及装置

    公开(公告)号:CN112257456B

    公开(公告)日:2025-04-04

    申请号:CN202011139506.2

    申请日:2020-10-22

    Abstract: 本发明公开了一种基于文本编辑技术的文本生成模型的训练方法及装置,该方法包括:获取预设的源文本集;根据预置的文本编辑器对所述源文本集进行编辑以得到所述源文本集的目标文本集;根据所述源文本集、所述目标文本集构建词汇表;根据所述词汇表、所述源文本集中的每一源文本的目标文本对所述每一源文本进行处理以得到第一标签序列;将所述每一源文本输入到待训练的文本生成模型中以得到第二标签序列;根据所述第一标签序列、所述第二标签序列对所述文本生成模型进行配置参数的调整。本发明基于机器学习技术领域,通过该方法对文本生成模型进行训练,不仅极大的提升了文本生成模型的训练效率,而且提高了文本生成模型生成高语义的文本准确率。

    一种基于多层次搜索的恶意代码溯源方法

    公开(公告)号:CN119721009A

    公开(公告)日:2025-03-28

    申请号:CN202411782070.7

    申请日:2024-12-05

    Abstract: 本发明公开了一种基于多层次搜索的恶意代码溯源方法,包括:S1.代码特征初步筛选;S2.引入改进的TF‑I DF模型实现二次筛选;S3.将每个代码片段解析成一棵抽象语法树AST,并将不同编程语言的AST节点映射到统一的节点类型集合;S4.综合获取节点类型特征,语义信息特征,上下文信息特征,将提取到的语义信息映射到词汇表中的索引;S5.构建多层图卷积网络GCN来捕获更深层次的图结构信息;S6.对聚合后的特征加上偏置并进行线性变换;S7.对于提取到的筛选后抽象语法树AST特征,通过多层次的代码特征表示进行筛选。本发明能够快速定位恶意代码片段,实现恶意代码的溯源检测,且整个过程全自动实现。

Patent Agency Ranking