一种文档相似度计算查重方法及系统

    公开(公告)号:CN118606462A

    公开(公告)日:2024-09-06

    申请号:CN202410672459.X

    申请日:2024-05-28

    Abstract: 本发明提供了一种文档相似度计算查重方法及系统,包括构建动态词库和动态资料库;基于动态词库,对待查重文档和各对比文档进行分词向量化处理,得到待查重文档和各对比文档的词条向量矩阵;并计算两者的相似度并筛选,得到对比目标文档;根据对比目标文档和所述待查重文档的加权词频‑逆文档频率指数矩阵,计算对比目标文档与待查重文档之间的精确相似度;加权词频‑逆文档频率指数矩阵基于词条长度和词条位置进行加权;该方法及系统先从动态资料库中快速筛选,缩小分析文档范围,提高查重效率;随后利用加权词频‑逆文档频率指数矩阵进行精确相似度计算,补充词频‑逆文档频率指数值忽略词条属性等重要因素的不足,从而提高相似度计算的准确率。

    一种提升大语言模型准确性的RAG混合检索方法及装置

    公开(公告)号:CN118277522A

    公开(公告)日:2024-07-02

    申请号:CN202410225234.X

    申请日:2024-02-29

    Abstract: 本发明属于RAG检索技术领域,具体涉及一种提升大语言模型准确性的RAG混合检索方法及装置,包括:基于用户的检索文本,从预先建立的向量数据库和搜索引擎中分别进行检索,得到第一检索结果和第二检索结果;所述第一检索结果和所述第二检索结果均包括:文本段落ID和文本段落的相似度评分;利用所述第一检索结果和所述第二检索结果,获取备选结果集;基于所述备选结果集中文本段落的相似度评分,确定最终的检索结果,并将最终的检索结果发送至大语言模型。本发明采用混合检索的方式,充分发挥向量检索和关键字检索的优点,弥补各自的不足,提高了检索结果的准确性和可靠性,从而为大语言模型提供更准确的外部知识,以此提高大语言模型内容生成的质量。

    一种基于大语言模型的简历匹配度评分方法及系统

    公开(公告)号:CN118071320A

    公开(公告)日:2024-05-24

    申请号:CN202410220150.7

    申请日:2024-02-28

    Abstract: 本发明提供了一种基于大语言模型的简历匹配度评分方法及系统,包括:采用大语言模型基于岗位需求解析指令,生成岗位需求内容对应的多个岗位需求指标项;采用大语言模型基于简历信息提取指令,生成简历内容对应的多个简历信息项;采用大语言模型基于匹配度评分指令,对岗位需求指标项和多个简历信息项进行匹配度分析,得到简历信息项的单项指标得分,进而得到简历内容的匹配度得分;本申请中通过将岗位需求内容和简历内容分别转换为岗位需求指标项和简历信息项,实现了基于自然语义的半结构信息提取,能够更好的适应不同格式的数据;通过使用大语言模型进行匹配度评估,可以基于自然语义和上下文信息更准确地评估简历的匹配度。

    一种数据导出方法、系统、装置以及电子设备

    公开(公告)号:CN113761041A

    公开(公告)日:2021-12-07

    申请号:CN202110837676.6

    申请日:2021-07-23

    Abstract: 本公开提供一种数据导出方法、系统、装置以及电子设备,所述数据导出方法包括:接收数据导出请求;其中,所述数据导出请求包括标准结构化数据库语句;将所述数据导出请求封装为声明对象;将所述声明对象发送到服务端;接收服务端发送的数据结果集,将所述数据结果集存储至缓冲区并进行处理;其中,所述数据结果集是由服务端根据接收到所述声明对象后从存储引擎中获取后通过stream模式发送的;将所述数据结果集写入临时文件中;将临时文件转换格式,得到数据导出结果。该数据导出方法可以解决导出大批量数据时对系统造成的性能下降,甚至宕机的问题。

    文档标签信息生成方法、装置、设备、介质和程序产品

    公开(公告)号:CN115129899A

    公开(公告)日:2022-09-30

    申请号:CN202211050377.9

    申请日:2022-08-31

    Abstract: 本公开的实施例公开了文档标签信息生成方法、装置、设备、介质和程序产品。该方法的一具体实施方式包括:响应于接收到课件文档信息,对课件文档信息进行校验处理,得到校验状态信息;将课件文档信息对应的基本文档信息存储至预设的课件档案信息表;生成目标课件文档信息;对目标课件文档信息进行全文索引处理,得到目标索引信息集;对各个目标索引信息进行提取处理,得到第一标签信息组;对目标课件文档信息进行拆分处理,得到目标字符信息序列组;基于目标字符信息序列组,生成第二标签信息组;基于第一标签信息组和第二标签信息组,生成文档标签信息,以及将文档标签信息更新至课件档案信息表。该实施方式可以提高文档标签信息的准确性。

Patent Agency Ranking