基于机器学习的变量自动分类方法及系统

    公开(公告)号:CN112381143A

    公开(公告)日:2021-02-19

    申请号:CN202011272803.4

    申请日:2020-11-13

    Abstract: 本发明公开了一种基于机器学习的变量自动分类方法及系统,涉及信息处理技术领域。该方法包括:获取待处理的报表,提取报表的文本信息;从本文对象中提取文本信息,利用预设的分词算法将文本信息拆分成词语,从词语中提取变量特征词;从词性识别对象中提取变量特征词,将提取的变量特征词与变量词库中的变量进行比较,形成用于抽取特征词的分类规则;根据分类规则将变量特征词抽取到对应的变量块中。本发明提供的变量自动分类方法基于机器学习实现,适用于统计类报表的变量自动分类,实现了利用机器学习创建变量自动分类的方法,可以解决在数据统计过程中繁琐复杂的变量识别工作。

    基于SDL语言的统计数据处理方法和设备

    公开(公告)号:CN115952187A

    公开(公告)日:2023-04-11

    申请号:CN202211649164.8

    申请日:2022-12-20

    Abstract: 本发明提供了一种基于SDL语言的统计数据处理方法和设备,该方法包括:S1:根据用户实际调用的SDL函数的语法关系,获取当前统计数据,并且预估当前统计数据的处理量;S2:如果根据所预估的处理量为小数据量,调用本地或服务器端的小数据处理引擎来对当前统计数据进行快速数据处理;S3:如果所预估的处理量为大数据,那么在服务器端调用大数据处理引擎,并通过spark算子来对当前统计数据进行处理。本发明能自动按统计业务规则去除重复数据,有固定的统计业务语法,简单易用,本发明语法的定义基本采用统计业务中常用指标词汇及计算方法,易于统计人员使用。

Patent Agency Ranking