-
公开(公告)号:CN101408901B
公开(公告)日:2010-07-14
申请号:CN200810229043.1
申请日:2008-11-26
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。
-
公开(公告)号:CN101408901A
公开(公告)日:2009-04-15
申请号:CN200810229043.1
申请日:2008-11-26
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。
-