识别站点同源关系的方法、装置、设备和计算机存储介质

    公开(公告)号:CN107451180A

    公开(公告)日:2017-12-08

    申请号:CN201710442512.7

    申请日:2017-06-13

    Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。

    检索方法和装置
    2.
    发明公开

    公开(公告)号:CN105159938A

    公开(公告)日:2015-12-16

    申请号:CN201510481932.7

    申请日:2015-08-03

    Abstract: 本申请公开了检索方法和装置。该检索方法的一具体实施方式包括:从搜索日志中查找出第一时效搜索式集合;选取满足以下选取条件之一的搜索式作为候选时效搜索式:位于搜索日志中且与第一时效搜索式集合中的第一时效搜索式在语义上相关联;位于搜索日志中且包含预设关键词组合;对候选时效搜索式执行处理操作,得到第二时效搜索式;当用户输入的搜索式与第二时效搜索式匹配时,利用第二时效搜索式进行搜索。实现了基于已被识别的第一时效搜索式,从搜索日志的搜索式中得到第二时效搜索式,从而在确保时效搜索式的识别过程中的识别准确率的情况下,增加识别召回率,进而提升了对时效搜索式的识别效果。

    一种自动问答方法和系统

    公开(公告)号:CN103853842A

    公开(公告)日:2014-06-11

    申请号:CN201410104275.X

    申请日:2014-03-20

    Inventor: 邹红建 呼大为

    CPC classification number: G06F17/30654

    Abstract: 本发明实施例提供一种自动问答方法和系统,包括:获取用户的查询信息;根据查询信息和至少一个知识场景的问答对数据,查询场景关联查询结果,并向用户返回,其中,所述知识场景的问答对数据中包括至少一个问答对,所述问答对之间具有设定的关联关系。本发明实施例的技术方案,将各种问答对以知识场景的形式进行组织,且建立了问答对之间的关联,则用户进行查询时,可以获得与场景相关联的查询结果,且能利用问答对之间的关联关系得到丰富灵活的结果,避免了问答结果单一的问题。

    转义识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN108595620B

    公开(公告)日:2022-04-26

    申请号:CN201810367116.7

    申请日:2018-04-23

    Abstract: 本申请提出一种转义识别方法、装置、计算机设备及存储介质,其中,方法包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。通过本方法,能够提高转义识别的准确性和可靠性,进而提高搜索结果的准确性。

    模型生成方法及装置、词语赋权方法及装置

    公开(公告)号:CN105653701B

    公开(公告)日:2019-01-15

    申请号:CN201511025975.0

    申请日:2015-12-31

    Inventor: 邹红建 方高林

    Abstract: 本发明实施例提供了一种模型生成方法及装置、词语赋值方法及装置。一方面,本发明实施例通过获取与指定图片相同的其它图片,将所述指定图片和所述其他图片作为样本图片;从而,根据所述样本图片的文本,获得文本聚簇;进而,根据所述文本聚簇获得文本特征,并根据所述样本图片获得视觉特征;以及,根据所述文本特征和所述视觉特征进行机器学习,生成第一回归模型和第一排序模型,第一回归模型和第一排序模型用于实现对图片中文本的词语赋权。因此,本发明实施例提供的技术方案能够提高图片的文本中各词语赋权结果的准确性,从而提高了图片搜索结果的准确性。

    一种自动问答方法和系统

    公开(公告)号:CN103853842B

    公开(公告)日:2017-07-18

    申请号:CN201410104275.X

    申请日:2014-03-20

    Inventor: 邹红建 呼大为

    Abstract: 本发明实施例提供一种自动问答方法和系统,包括:获取用户的查询信息;根据查询信息和至少一个知识场景的问答对数据,查询场景关联查询结果,并向用户返回,其中,所述知识场景的问答对数据中包括至少一个问答对,所述问答对之间具有设定的关联关系。本发明实施例的技术方案,将各种问答对以知识场景的形式进行组织,且建立了问答对之间的关联,则用户进行查询时,可以获得与场景相关联的查询结果,且能利用问答对之间的关联关系得到丰富灵活的结果,避免了问答结果单一的问题。

    模型生成方法及装置、词语赋权方法及装置

    公开(公告)号:CN105653701A

    公开(公告)日:2016-06-08

    申请号:CN201511025975.0

    申请日:2015-12-31

    Inventor: 邹红建 方高林

    Abstract: 本发明实施例提供了一种模型生成方法及装置、词语赋值方法及装置。一方面,本发明实施例通过获取与指定图片相同的其它图片,将所述指定图片和所述其他图片作为样本图片;从而,根据所述样本图片的文本,获得文本聚簇;进而,根据所述文本聚簇获得文本特征,并根据所述样本图片获得视觉特征;以及,根据所述文本特征和所述视觉特征进行机器学习,生成第一回归模型和第一排序模型,第一回归模型和第一排序模型用于实现对图片中文本的词语赋权。因此,本发明实施例提供的技术方案能够提高图片的文本中各词语赋权结果的准确性,从而提高了图片搜索结果的准确性。

    用于识别网站的方法、装置及服务器

    公开(公告)号:CN106844685B

    公开(公告)日:2020-07-28

    申请号:CN201710057271.4

    申请日:2017-01-26

    Abstract: 本申请公开了用于识别网站的方法、装置及服务器。该方法的一具体实施方式包括:获取待识别网站的网页集合;识别该网页集合中的异常网页,其中,该异常网页中的图片信息与文本信息的相关度小于相关度阈值;确定识别出的异常网页在该网页集合中的比率;根据所确定的比率,确定该待识别网站是否为垃圾网站。该实施方式提高了识别垃圾网站的效率。

    图片检索方法、装置、服务器及存储介质

    公开(公告)号:CN109033385A

    公开(公告)日:2018-12-18

    申请号:CN201810848059.4

    申请日:2018-07-27

    Abstract: 本发明实施例公开一种图片检索方法、装置、服务器及存储介质,其中,方法包括:从所有网页的图片中识别出多个内容相同的图片组;对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中针对每一个文本描述,倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;根据输入的检索词和倒排索引进行图片检索。本发明实施例可实现以图片为基本单位将相关来源网页聚合后作为构建倒排索引的图片文本描述信息,减少图片索引的冗余信息,同时可精准召回跨页面命中的结果,对长检索词或多个限定词语的检索词也能精准召回。

    检索方法和装置
    10.
    发明授权

    公开(公告)号:CN105159938B

    公开(公告)日:2018-11-30

    申请号:CN201510481932.7

    申请日:2015-08-03

    CPC classification number: G06F17/30693 G06F17/30663 G06F17/30672

    Abstract: 本申请公开了检索方法和装置。该检索方法的一具体实施方式包括:从搜索日志中查找出第一时效搜索式集合;选取满足以下选取条件之一的搜索式作为候选时效搜索式:位于搜索日志中且与第一时效搜索式集合中的第一时效搜索式在语义上相关联;位于搜索日志中且包含预设关键词组合;对候选时效搜索式执行处理操作,得到第二时效搜索式;当用户输入的搜索式与第二时效搜索式匹配时,利用第二时效搜索式进行搜索。实现了基于已被识别的第一时效搜索式,从搜索日志的搜索式中得到第二时效搜索式,从而在确保时效搜索式的识别过程中的识别准确率的情况下,增加识别召回率,进而提升了对时效搜索式的识别效果。

Patent Agency Ranking