N-Gram模型的建立方法
    1.
    发明授权

    公开(公告)号:CN108021712B

    公开(公告)日:2021-12-31

    申请号:CN201711464797.0

    申请日:2017-12-28

    Applicant: 中南大学

    Abstract: 本发明公开了一种N‑Gram模型的建立方法,包括获取原始语料;对原始语料进行分词;对分词结果进行单词统计;对N‑Gram模型进行平滑处理,得到最终的N‑Gram模型。本发明方法通过建立Witten‑Bell平滑对N‑Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。

    一种基于Adaboost和欠采样的不平衡学习方法

    公开(公告)号:CN109447118A

    公开(公告)日:2019-03-08

    申请号:CN201811125231.X

    申请日:2018-09-26

    Applicant: 中南大学

    Abstract: 本发明涉及一种基于Adaboost和欠采样的不平衡学习方法,通过改进Adaboost算法捕捉数据分布动态变化,并基于Adaboost的集成学习为同一训练集训练不同的弱分类器,然后组装这些弱分类器以形成强大的最终分类器,采样还原度高的不平衡学习方法,来缓解不平衡带来的分类问题。有效提高了少数类的分类精度,具有实际社会、经济、技术价值。

    不平衡数据的分类方法
    3.
    发明公开

    公开(公告)号:CN108460421A

    公开(公告)日:2018-08-28

    申请号:CN201810203520.0

    申请日:2018-03-13

    Applicant: 中南大学

    CPC classification number: G06K9/6218 G06K9/6256

    Abstract: 本发明公开了一种不平衡数据的分类方法,包括获取需要分类的不平衡数据集;对数据样本权重进行初始化;抽取若干个样本构成代价敏感度高的样本集合并设置代价值;构成代价敏感度低的样本集合并设置代价值;采用基本分类器在样本上进行训练得到弱分类器;更新所有样本的权重值;对不平衡数据集的所有子集进行分裂和权重值更新;输出最终的集成分类器,完成不平衡数据分类。本发明提供的这种不平衡数据的分类方法提出了一种基于信息熵的子集分割方式来将多数类样本进行聚类,具有更高的分类精确度。

    N-Gram模型的建立方法
    4.
    发明公开

    公开(公告)号:CN108021712A

    公开(公告)日:2018-05-11

    申请号:CN201711464797.0

    申请日:2017-12-28

    Applicant: 中南大学

    Abstract: 本发明公开了一种N‑Gram模型的建立方法,包括获取原始语料;对原始语料进行分词;对分词结果进行单词统计;对N‑Gram模型进行平滑处理,得到最终的N‑Gram模型。本发明方法通过建立Witten‑Bell平滑对N‑Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。

    基于数据挖掘的在校学生成绩预警方法

    公开(公告)号:CN106778054A

    公开(公告)日:2017-05-31

    申请号:CN201710224459.3

    申请日:2017-04-07

    Applicant: 中南大学

    CPC classification number: G16Z99/00

    Abstract: 本发明公开了一种基于数据挖掘的在线学生成绩预警方法,包括获取学校已毕业学生的成绩数据并分等;采用Apriori算法挖掘成绩数据中所有符合最小支持度计数值的频繁项集;利用频繁项集得到所有强关联规则;对在校学生的所有成绩运用强关联规则进行数据运算,得到成绩的预测和预警结果。本发明通过获取往届学生的学习成绩数据,并对获取的成绩数据进行数据挖掘和关联分析,从而得到各科成绩之间的强关联规则,并根据获得的各科成绩之间的强关联规则对在校学生的成绩进行预测和预警,因此本发明方法从客观的数据出发,能够及时和实时的对学生的成绩进行预测和预警,而且客观,合理,科学,计算速度快,精度高。

    一种远程大数据储存系统

    公开(公告)号:CN110008721A

    公开(公告)日:2019-07-12

    申请号:CN201910226337.7

    申请日:2019-03-25

    Applicant: 中南大学

    Abstract: 本发明公开了一种远程大数据储存系统,涉及信息科技领域,主要为了解决现有的大数据储存系统安全性较低的问题;该系统包括:客户端,其作为原始数据的储存介质,所述原始数据为未经处理的待储存大数据;加密模块,用于对所述原始数据进行加密,将所述原始数据转化为加密数据;无线传输模块,用将所述加密数据传输给客户端,以供客户端进行储存;客户端,其作为所述加密数据的储存介质;解密模块,用于对存储于客户端的所述加密数据进行解密,以使所述加密数据能够被读取。本发明的大数据储存系统通过将原始数据转换为加密数据,这样即使在传输的过程中数据被窃取,也不会造成原始数据的泄漏,极大地提升了大数据储存的安全性。

    基于统计频率和关联规则的异常学生挖掘方法

    公开(公告)号:CN107578181A

    公开(公告)日:2018-01-12

    申请号:CN201710834420.3

    申请日:2017-09-15

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于统计频率和关联规则的异常学生挖掘方法,包括构建学生-成绩矩阵;得到学生-课程异常矩阵;划分出全局型异常学生;获得学生各课程成绩之间的关联关系;对所有学生的异常科目进行分组合并;划分出偏科型异常学生;对学生进行分类,从而挖掘得到最终的异常学生。本发明提出了一种新的算法,通过统计频率计算学生全部已修科目的考试成绩异常总量,设置合理阈值划分全局型异常学生,有效的降低噪声影响;通过关联规则表达课程的相关性,计算学生出现问题的科目的关联规则信息熵,从而描述学生的偏科程度,能够更加准确的划分出偏科型异常学生。

    基于数据挖掘的学生贫困状态预测方法

    公开(公告)号:CN106951568A

    公开(公告)日:2017-07-14

    申请号:CN201710223971.6

    申请日:2017-04-07

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于数据挖掘的学生贫困状态预测方法,包括获取所有学生在校的学习数据、消费数据信息和贫困生与非贫困生的比例;将学生数据信息分为训练集合和测试集合,且每个集合中贫困生和非贫困生的比例与已确定的比例一致;对训练集合中的数据采用过采样算法进行数据平衡化;采用随机森林算法对训练集合进行模型训练,以测试集合对模型进行测试和评估,得到性能最优的学生贫困状态预测模型;采用学生贫困状态预测模型对学生的贫困状态进行预测。本发明方法通过学生在校的客观数据和表现对学生的贫困状态进行综合考量和预测,从而避免在学生贫困状态评定中出现的主观性和随机性,而且本发明方法科学实用,能够快速进行算法解算和数据分析。

Patent Agency Ranking