-
公开(公告)号:CN114444470B
公开(公告)日:2022-12-02
申请号:CN202210081976.0
申请日:2022-01-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F40/211 , G06F40/295 , G06K9/62
Abstract: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN114090799A
公开(公告)日:2022-02-25
申请号:CN202111404155.8
申请日:2021-11-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F16/383 , G06F16/33 , G06F16/338 , G06F16/31 , G06F16/36
Abstract: 本申请公开了一种文本检索方法、装置、存储介质及服务器,属于数据检索技术领域。所述方法包括:获取待检索的第一专利文本的第一词袋组合和第一专利信息;获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息;根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集;根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。本申请可以提高检索效率和准确率。
-
公开(公告)号:CN112150806B
公开(公告)日:2021-05-28
申请号:CN202010919837.1
申请日:2020-09-04
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
Abstract: 本发明提供基于SUMO分析模型的单路口信号灯最优配时实现方法、控制装置、电子设备及存储介质,方法包括:建立单路口SUMO分析模型;采集车辆在车道上的位置和速度数据,代入跟车模型运用模拟退火算法进行计算,得到单路口最优配时解决方案;采集路口间车流量数据,代入SUMO分析模型进行实时信号周期配时,动态地修改调整单路口最优配时解决方案;建立固定配时方案并进行比较;定量分析得到全局最优配时解决方案。本发明关键技术是对于车辆流动的整体数学建模,数学建模的准确与否直接影响最终效果。建模过程采用了实时分析的方法,更精确的计算出每秒每个车辆的速度和位置情况,实时计算出一个信号周期内全局的最优配时解决方案。
-
公开(公告)号:CN111967063B
公开(公告)日:2021-04-09
申请号:CN202010908124.5
申请日:2020-09-02
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F21/64 , G06F16/951 , G06F16/958 , G06K9/62 , G06F40/279
Abstract: 本发明提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,属于互联网内容安全监测技术领域。所述方法应用于服务器,从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合,相比传统仅采用一项分析技术的监测方法而言,从多个维度、多个特质综合多项分析技术进行监测和统一分析,能有效减少误报、漏报情况;并且,通过制定和采用一定规则,同时实施多项分析技术,将近时间内分析结果存入缓存中,能有效避免重复计算,高并发处理海量网页,使处理速度远高于常规监测手段。
-
公开(公告)号:CN114090799B
公开(公告)日:2022-07-26
申请号:CN202111404155.8
申请日:2021-11-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F16/383 , G06F16/33 , G06F16/338 , G06F16/31 , G06F16/36
Abstract: 本申请公开了一种文本检索方法、装置、存储介质及服务器,属于数据检索技术领域。所述方法包括:获取待检索的第一专利文本的第一词袋组合和第一专利信息;获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息;根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集;根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。本申请可以提高检索效率和准确率。
-
公开(公告)号:CN112256457A
公开(公告)日:2021-01-22
申请号:CN202011227889.9
申请日:2020-11-06
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
Abstract: 本发明提供一种基于共享内存的数据载入加速方法、装置、电子设备及存储介质,属于数据处理技术领域。所述方法应用于服务器,方法包括:将共享内存用作默认的内存池,在共享内存中创建对象并命名,使用带偏移量的智能指针指向共享内存,导出偏移地址到文件,在共享内存中创建动态数组(Vector)和容器(Map),构建自定义哈希容器(Customized Hashmap),加载创建好的内存对象,实现不同进程间的数据通讯。本发明自定义了一套基于共享内存的哈希容器,在数据静态使用方式的前提下又做了一系列优化,实现了其它数据载入方式不具备、但在实际工程应用时不可或缺的功能,如多类型支持、嵌套容器的实现、内存校验、内存动态管理导入等,并提出了采用记录哈希值到哈希桶的内存存储结构,加快了共享内存容器的插入查找速度。
-
公开(公告)号:CN112149523A
公开(公告)日:2020-12-29
申请号:CN202010919839.0
申请日:2020-09-04
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
Abstract: 本发明提供基于深度学习和并查集算法的OCR识别并抽取图片的方法、装置、电子设备及存储介质,属于图片处理技术领域。所述方法应用于服务器,方法包括:采用深度学习算法对图片进行OCR处理,得到文本信息BOX;运用并查集分类算法对文本信息进行抽取,得到段落分类;筛选后得到纯文本段落;利用OpenCV对纯文本段落做白色BOX覆盖,得到TMP格式图片;做像素横纵扫描找到分割线并切分,抽取出最终图片。本技术将深度学习算法与并查集分类算法相融合,通过深度学习算法实现了OCR对图片文本的高效识别,通过并查集分类算法提高了OpenCV对图片的精准切割,大大提高了OCR识别和抽取图像的准确性和正确率。
-
公开(公告)号:CN111967063A
公开(公告)日:2020-11-20
申请号:CN202010908124.5
申请日:2020-09-02
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F21/64 , G06F16/951 , G06F16/958 , G06K9/62 , G06F40/279
Abstract: 本发明提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,属于互联网内容安全监测技术领域。所述方法应用于服务器,从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合,相比传统仅采用一项分析技术的监测方法而言,从多个维度、多个特质综合多项分析技术进行监测和统一分析,能有效减少误报、漏报情况;并且,通过制定和采用一定规则,同时实施多项分析技术,将近时间内分析结果存入缓存中,能有效避免重复计算,高并发处理海量网页,使处理速度远高于常规监测手段。
-
公开(公告)号:CN114444470A
公开(公告)日:2022-05-06
申请号:CN202210081976.0
申请日:2022-01-24
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F40/211 , G06F40/295 , G06K9/62
Abstract: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN112257419A
公开(公告)日:2021-01-22
申请号:CN202011227890.1
申请日:2020-11-06
Applicant: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC: G06F40/216 , G06F40/30 , G06F40/242 , G06F40/289 , G06K9/62 , G06F16/33
Abstract: 本发明提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质,对专利数据库中的所有文献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;建立模型,输入内容或考题号,在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合,并分别根据词袋算法和语义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合排序得到综合相似度,经查重筛选,给出待查专利的可疑答案集合。本发明提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围,第二轮细选旨在兼顾提高准确率;可以有效节省人力和时间,帮助专利审查员缩减相关专利审查范围,提高审查效率。
-
-
-
-
-
-
-
-
-