-
公开(公告)号:CN110727837A
公开(公告)日:2020-01-24
申请号:CN201910878808.2
申请日:2019-09-17
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/903 , G06F16/9535 , G06F16/957
Abstract: 本申请提供一种显示搜索推荐列表中的字符的方法及装置,从而能够根据用户输入的不同种类的字符将推荐器返回的推荐列表进行区别显示。所述方法包括:接收推荐器返回的搜索推荐列表;根据用户输入的查询关键字的类型确定关键字的匹配方式;根据所述关键字的匹配方式确定区别显示关键字;将所述搜索推荐列表中的与所述区别显示关键字对应的字符进行区别显示,以使进行区别显示的字符与所述推荐列表中的其他字符进行区别。本申请在兼顾准确,快速响应的同时,支持无论汉字输入还是拼音输入,对推荐结果中的匹配内容均能够进行区别显示。
-
公开(公告)号:CN106095780B
公开(公告)日:2019-12-03
申请号:CN201610361839.7
申请日:2016-05-26
Applicant: 达而观信息科技(上海)有限公司
Inventor: 江永青
IPC: G06F16/9538 , G06F16/33
Abstract: 本发明公开了一种基于位置特征的检索方法,包括如下步骤:根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算关键词在检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;将词频及密度分数及位置距离分数进行加权求和获取关键词在检索结果中的基本分数A,将分布分数平滑后,计算顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算关键词在每个检索结果的综合分数,将检索结果按照其对应的综合分数进行降序排序后通过用户接口提供给用户。本发明词频及密度的分数、位置距离分数、分布分数、顺序分数的统合分数,实现提高检索结果相关性,提高用户体验性的目的。
-
公开(公告)号:CN110705281B
公开(公告)日:2022-12-20
申请号:CN201910796584.0
申请日:2019-08-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/289 , G06F40/205 , G06F16/35
Abstract: 本发明公开了一种基于机器学习的简历信息抽取方法,包括以下步骤:构建行业关键词库;根据多个样本简历和行业关键词库的数据构建简历向量模型;将待抽取简历处理成结构化字段和非结构化字段;从结构化字段中正则提取出个人基本信息;利用分类器预测待抽取简历所属行业;简历向量模型将非结构化数据与行业关键词进行匹配,生成待抽取简历的行业特征向量。本发明简历信息提取准确率高,且能够对不同格式、不同行业的简历信息进行提取,应用更加广泛。
-
公开(公告)号:CN107343209A
公开(公告)日:2017-11-10
申请号:CN201710517911.5
申请日:2017-06-29
Applicant: 达而观信息科技(上海)有限公司
IPC: H04N21/25 , H04N21/258 , H04N21/466
CPC classification number: H04N21/251 , H04N21/25891 , H04N21/4667 , H04N21/4668
Abstract: 本发明公开了一种基于增量协同过滤的UGC相关视频生成方法,包括:实时读取原始的用户播放行为数据,并进行预处理,输出用户播放数据;根据用户播放数据计算并输出视频的最终流行度数据;根据用户播放数据获取增量数据及其中的增量共现数据;根据历史共现数据和增量共现数据计算最终共现数据;对于每一个视频数据对,分别对视频数据对中的两个视频数据进行聚合操作,获取最后的相关视频列表。本发明中的方法,可以实时处理用户行为数据,可以将协同过滤推荐结果更快地反馈到推荐结果并集中;更快地计算出新视频的协同过滤结果,避免新视频的推荐冷启动效果不佳的问题。
-
公开(公告)号:CN107330041A
公开(公告)日:2017-11-07
申请号:CN201710501375.X
申请日:2017-06-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30539 , G06F2216/03
Abstract: 本发明公开了一种基于时间衰减的相关搜索词挖掘方法及系统,挖掘方法实现以下有益效果:通过搜索词关联到相关词的频繁项集,相关词的频繁项集具有更简单、更快速的效果;通过支持度、置信度对推荐的频繁项集中的噪音进行过滤,使推荐的频繁项集过得到简化,人员可以较为容易的确定相关搜索词;通过时间衰减函数降低时间距离太久远的相关搜索词的权重,相对的升高了最近、最热门的相关搜索词的权重,使人员可以迅速找到想要的相关搜索词。挖掘系统通过其中的关联单元、计算过滤单元以及时间衰减单元实现了挖掘系统相同的有益效果。
-
公开(公告)号:CN106339447A
公开(公告)日:2017-01-18
申请号:CN201610712338.9
申请日:2016-08-23
Applicant: 达而观信息科技(上海)有限公司
CPC classification number: G06F16/738 , G06F16/735 , H04N21/4532
Abstract: 本发明公开了一种自动预测热点视频的系统及方法,其中系统包括视频数据库;统计模块,用于计算所述候选热点视频列表中每个候选热点视频的总统计量,并统计预设时间段T内每个视频的新增的统计量;生成模块,用于查询所述视频数据库获取满足预设候选条件的视频并生成候选热点视频列表;计算模块,用于计算所述候选热点视频列表中每个候选热点视频的时长权重、上传时间权重、统计量权重及CMS权重,并统计每个候选热点视频的权重之和,根据所述权重之和将候选热点视频进行排列并输出。本发明通过对热点视频推荐模块获取的候选热点视频进行权重计算后,按照计算记过生成一个近期热点视频的列表,推荐给终端用户使用。
-
公开(公告)号:CN106095779A
公开(公告)日:2016-11-09
申请号:CN201610361720.X
申请日:2016-05-26
Applicant: 达而观信息科技(上海)有限公司
Inventor: 江永青
IPC: G06F17/30
CPC classification number: G06F16/3334 , G06F16/3344 , G06F16/951
Abstract: 本发明公开了一种基于关键词位置的检索方法及装置,其中方法包括如下步骤:采集网页并分析网页的关键词位置索引,关键词位置索引为网页中包括的所有关键词及其在网页中的对应的位置;接收用户输入的查询项并进行分词,获取查询项对应的查询关键词,查询关键词的数量为N,N为大于或等于1的自然数;根据所述查询关键词在所述关键词位置索引中的位置计算所述查询关键词在网页中的距离,根据所述距离获取所有所述查询关键词在所述网页中的最短距离,根据所述最短距离计算所述查询关键词的相关性分数;将不同网页的相关性分数进行排序后输出。本发明时间复杂度及空间复杂度低,响应速度快。
-
公开(公告)号:CN105577455A
公开(公告)日:2016-05-11
申请号:CN201610126930.0
申请日:2016-03-07
Applicant: 达而观信息科技(上海)有限公司
IPC: H04L12/24
CPC classification number: H04L41/069 , H04L41/14
Abstract: 本发明公开了一种对海量日志进行实时UV统计的方法及系统,系统包括:布隆过滤器创建与初始化模块,日志实时接收模块,日志处理模块,结果输出模块。本发明提出的基于布隆过滤器(Bloom Filter)实现的实时UV统计系统,通过选择若干个哈希函数巧妙的把每一条实时的PV Log在常数时间内“映射”到位数组的相应个数的特定的bit位上,再通过简单的判断即可实时计算出当前UV值。该系统具有实现简单、占用系统资源少、运行效率高、实时性等优点。采用了本发明中的方法,占用更小的内存资源,即更优的空间复杂度;占用更少的处理器资源,即更优的时间复杂度;可以非常方便的进行UV的动态实时计算。
-
公开(公告)号:CN110705281A
公开(公告)日:2020-01-17
申请号:CN201910796584.0
申请日:2019-08-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/289 , G06F40/205 , G06F16/35
Abstract: 本发明公开了一种基于机器学习的简历信息抽取方法,包括以下步骤:构建行业关键词库;根据多个样本简历和行业关键词库的数据构建简历向量模型;将待抽取简历处理成结构化字段和非结构化字段;从结构化字段中正则提取出个人基本信息;利用分类器预测待抽取简历所属行业;简历向量模型将非结构化数据与行业关键词进行匹配,生成待抽取简历的行业特征向量。本发明简历信息提取准确率高,且能够对不同格式、不同行业的简历信息进行提取,应用更加广泛。
-
公开(公告)号:CN110609932A
公开(公告)日:2019-12-24
申请号:CN201910707604.2
申请日:2019-08-01
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/9032 , G06F16/951 , G06F17/22
Abstract: 本发明公开了一种基于复杂网络文本语意图编码方式的专利查重方法及系统,所述方法包括以下步骤:将从互联网中获取的公开数据集预处理成语料数据;将语料数据输入Word2Vector模型中进行训练和测试,生成词向量模型;将待查重长文本和公开长文本分别输入词向量模型中,得到待查重长文本词向量和公开长文本词向量;构建待查重长文本多维复杂有向图和公开长文本多维复杂有向图;获取待查重长文本的张量、公开长文本的张量;通过计算待查重长文本张量与公开长文本张量之间的相似度来判定文本相似程度。本发明提出的复杂网络文本语意图编码方式能够充分表示出文档中字、词的关系以及关系的权重,表意清晰,物理意义明确,易于计算。
-
-
-
-
-
-
-
-
-