-
公开(公告)号:CN114090799A
公开(公告)日:2022-02-25
申请号:CN202111404155.8
申请日:2021-11-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F16/383 , G06F16/33 , G06F16/338 , G06F16/31 , G06F16/36
Abstract: 本申请公开了一种文本检索方法、装置、存储介质及服务器,属于数据检索技术领域。所述方法包括:获取待检索的第一专利文本的第一词袋组合和第一专利信息;获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息;根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集;根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。本申请可以提高检索效率和准确率。
-
公开(公告)号:CN114090799B
公开(公告)日:2022-07-26
申请号:CN202111404155.8
申请日:2021-11-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F16/383 , G06F16/33 , G06F16/338 , G06F16/31 , G06F16/36
Abstract: 本申请公开了一种文本检索方法、装置、存储介质及服务器,属于数据检索技术领域。所述方法包括:获取待检索的第一专利文本的第一词袋组合和第一专利信息;获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息;根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集;根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。本申请可以提高检索效率和准确率。
-
公开(公告)号:CN119646115A
公开(公告)日:2025-03-18
申请号:CN202411682398.1
申请日:2024-11-22
Applicant: 北京开普云信息科技有限公司
IPC: G06F16/31 , G06F16/335 , G06F40/194 , G06F40/242 , G06F40/279
Abstract: 本申请公开了一种文本中关注短语的提取方法、装置、存储介质及设备,属于计算机技术领域。方法包括:获取针对关注短语构建的倒排索引和多模匹配模型;利用多模匹配模型对输入的文本进行检测,得到多个碎片;利用倒排索引归集多个碎片,得到第一碎片集;根据预设编辑距离对第一碎片集进行切分,得到多组第二碎片集;对于每组第二碎片集,根据第二碎片集中的碎片与关注短语之间的编辑距离筛选候选碎片;将每组第二碎片集中的候选碎片组合成关注短语的相似变体,将与关注短语之间的编辑距离大于预定阈值的相似变体识别为关注短语。本申请能利用改进的多模检测模型和倒排索引,将文本中关注短语的相似变体识别为关注短语,提高了提取的准确性。
-
-