一种网页信息抽取的系统及方法

    公开(公告)号:CN101464905B

    公开(公告)日:2011-03-23

    申请号:CN200910076548.3

    申请日:2009-01-08

    Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。

    P2P中资源下载方法及其系统

    公开(公告)号:CN101741750A

    公开(公告)日:2010-06-16

    申请号:CN201010034234.X

    申请日:2010-01-15

    Abstract: 本发明涉及一种P2P中资源下载方法及其系统,方法包括:步骤1,节点根据物理网络信息和预设的节点组划分标准选择加入的节点组;步骤2,发生数据请求的节点为用户节点,用户节点获得拥有请求数据的备选节点,备选节点组成备选节点集合;步骤3,用户节点依据用户节点所属的节点组,以及备选节点同所述用户节点间的连接质量,从备选节点集合中选择备选节点,被选择的备选节点作为资源节点;步骤4,用户节点从所述资源节点下载请求的数据。本发明能够在选择节点进行下载时应用物理层网络拓扑结构。

    一种跨领域文本情感倾向性分析方法

    公开(公告)号:CN101714135A

    公开(公告)日:2010-05-26

    申请号:CN200910242427.1

    申请日:2009-12-11

    Abstract: 本发明提供一种跨领域文本情感倾向性分析方法,包括下列步骤:1)确定源领域和目标领域中文本与词的初始情感分;2)根据测试文本集和测试词集分别与所有词集和所有文本集的关系建立测试文本集DU与测试词集WU和训练词集WL间的相似矩阵M、测试词集WU与测试文本集DU和训练文本集DL间的相似矩阵N和测试词集WU与所有词集之间的相似矩阵V中的一个或多个,计算一个或多个相似矩阵的归一化矩阵和邻域矩阵;3)利用所述源领域和目标领域中文本与词的初始情感分和所述一个或多个相似矩阵的邻域矩阵迭代计算测试文本和测试词的情感分并进行归一化。该方法能够大幅提高对新领域的文本进行分类的精度。

    一种网页信息抽取的系统及方法

    公开(公告)号:CN101464905A

    公开(公告)日:2009-06-24

    申请号:CN200910076548.3

    申请日:2009-01-08

    Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。

    一种目标检测模型对抗训练方法、目标检测方法及系统

    公开(公告)号:CN116580265B

    公开(公告)日:2025-04-22

    申请号:CN202310604430.3

    申请日:2023-05-26

    Abstract: 本发明提供一种目标检测模型对抗训练方法,所述方法包括:S1、获取目标图像数据集和初始对抗图案,所述目标图像数据集包括多个图像样本,且每个图像样本中设置有目标边界框标注;S2、对初始对抗图案进行分形变换以获得目标对抗图案;S3、将步骤S2得到的目标对抗图案注入所述目标图像数据集中每一图像样本的目标边界框内得到对抗训练集,并采用对抗训练集训练目标检测模型至收敛。本发明引入了引入分形变换损失对对抗图案进行迭代更新,使得生成的对抗图案具有一定的自相似性,采用具有自相似性的对抗图案对目标检测模型进行对抗训练,能够提升目标检测模型的鲁棒性,使得模型具有较强的对抗能力。

    基于列存数据的流式数据处理方法及系统

    公开(公告)号:CN114185884B

    公开(公告)日:2025-04-04

    申请号:CN202111306456.7

    申请日:2021-11-05

    Abstract: 本发明提出一种基于列存数据的流式数据处理方法及系统,包括:获取待处理的流式数据及其对应的处理任务,基于时间维度将该流式数据切分为批式数据块,该批式数据块中每条数据均包含各自所属窗口的时间戳;根据该时间戳的时间类型,压缩该时间戳,根据压缩结果为该批式数据块中每条数据分配窗口序号,将该批式数据块切分为多个中间数据块,每个中间数据块仅包含窗口序号相同的数据,根据处理任务对每个中间数据块的数据进行预聚合计算,产生预聚合中间状态;根据预设的流式数据时间处理模式,从内部存储提取相应窗口序号的预聚合中间状态并执行与其对应的处理任务,输出各窗口序号的任务处理结果,作为流式数据处理结果。

    一种基于多标签序列标注的指代消解方法

    公开(公告)号:CN114997177B

    公开(公告)日:2025-01-24

    申请号:CN202210561797.7

    申请日:2022-05-23

    Abstract: 本发明提供一种基于多标签序列标注的指代消解方法,包括:S1、将待处理文本分割成预设长度且不重合的多个文本片段;S2、采用预训练模型对每个文本片段进行编码得到每个字符的语义表达;S3、基于每个字符的语义表达分别判断每个字符是否属于B I E标签;S4、基于每个字符对应的标签,在连续I标签序列中,基于预设的组合策略组合任意的BE标签对应的字符构成短语,其中,连续I标签序列表示一个连续的字符序列中的每个字符均具有I标签;S5、计算任意两个短语之间的相似性得分,为每个短语保留与其相似性得分排名靠前的预设个数的短语作为其前置候选短语;S6、采用排序模型将每个短语的前置候选短语进行排序并将得分第一的前置候选短语作为其互指对象。

    一种基于模态对比学习的跨模态实体召回方法和装置

    公开(公告)号:CN119066217A

    公开(公告)日:2024-12-03

    申请号:CN202310643813.1

    申请日:2023-06-01

    Abstract: 本发明提供了一种基于模态对比学习的跨模态实体召回方法和装置,所述方法包括以下步骤:T1、获取待查询实体,利用经训练的多模态编码神经网络和预设的归一化方式提取待查询实体的多维待查询实体向量,其中,多模态编码神经网络包括用于对文本模态的输入实体提取向量的文本编码模型以及用于对图像模态的输入实体提取向量的图像编码模型并且根据同模态的对比学习和跨模态的对比学习得到;T2、计算多维待查询实体向量与索引库中存储的各库内实体的多维库内实体向量的相似度,所述各库内实体的多维库内实体向量预先基于所述经训练的多模态编码神经网络和预设的归一化方式提取得到;T3、基于相似度,从索引库中召回多个库内实体作为候选实体。

Patent Agency Ranking