-
公开(公告)号:CN105045875A
公开(公告)日:2015-11-11
申请号:CN201510425081.4
申请日:2015-07-17
Applicant: 北京林业大学
IPC: G06F17/30
Abstract: 本发明提供一种个性化检索方法,包括:对用户提交的查询进行分词得到检索词集合Q;根据叙词表进行叙词规范化获得规范化叙词;通过比较用户提交的查询和用户模型的相关性,构建用于本次查询的查询模型;利用查询模型扩展检索词集合Q得到新的检索词集合Q1;利用通用搜索引擎对Q1中的检索词进行检索,获得网页中的要素信息;计算每个网页的查询和文档相关度比值,根据所述相关度比值进行排序,并返回给用户,相关度比值越小表示用户个性化需求和检索结果越接近。本发明提供的个性化检索方法和装置记录和分析用户的检索历史,并应用于当前提交的检索,改善了检索结果的相关性及检索效率。
-
公开(公告)号:CN103500216B
公开(公告)日:2017-02-15
申请号:CN201310462931.9
申请日:2013-09-30
Applicant: 北京林业大学
IPC: G06F17/30
Abstract: 本发明提供一种文件信息的提取方法,包括:依次以段落方式获取文件信息;查找所述段落内是否包括至少一个标识字符;如果查找到所述标识字符,则将所述段落作为信息块的起始段。通过对文件信息的所述至少一个标识符进行识别,能够快速而准确从文件信息中切割出需要的信息块。因为不需要对文件内容中的公式、表格和/或图片等信息进行识别,所以该方法还适用于包含公式等信息的文件,扩大了该方法的适用范围。本方法结合支持向量机和浅层句法分析,在进行初步识别之后,还可对错误结果进行修正,提高了识别的正确率。
-
公开(公告)号:CN103500216A
公开(公告)日:2014-01-08
申请号:CN201310462931.9
申请日:2013-09-30
Applicant: 北京林业大学
IPC: G06F17/30
CPC classification number: G06F17/274
Abstract: 本发明提供一种文件信息的提取方法,包括:依次以段落方式获取文件信息;查找所述段落内是否包括至少一个标识字符;如果查找到所述标识字符,则将所述段落作为信息块的起始段。通过对文件信息的所述至少一个标识符进行识别,能够快速而准确从文件信息中切割出需要的信息块。因为不需要对文件内容中的公式、表格和/或图片等信息进行识别,所以该方法还适用于包含公式等信息的文件,扩大了该方法的适用范围。本方法结合支持向量机和浅层句法分析,在进行初步识别之后,还可对错误结果进行修正,提高了识别的正确率。
-
-