一种基于电网数据中台的数据血缘溯源分析方法

    公开(公告)号:CN119127917A

    公开(公告)日:2024-12-13

    申请号:CN202411637040.7

    申请日:2024-11-15

    Abstract: 本发明提供了一种基于电网数据中台的数据血缘溯源分析方法。所述方法包括:基于Hive和YARN生成和收集执行日志,基于所述执行日志获取多个SQL语句,基于所述多个SQL语句分别构建AST树,基于所述AST树获取数据血缘映射关系和数据节点信息;基于信息熵数据对齐方法合并所述多个SQL语句中相同的所述数据节点,基于Neo4j将所述数据血缘映射关系和数据节点转换为数据血缘图,基于广度优先搜索和A*算法对所述数据血缘图进行数据路径溯源。通过本发明的技术方案,能够快速、准确定位问题数据发生的位置,确保电网数据从采集、传输、存储到分析的全过程透明化和可追踪化,满足企业对数据中台数据服务的时效性和可靠性需求。

    一种电网非结构化数据深度聚类优化方法及系统

    公开(公告)号:CN118626654A

    公开(公告)日:2024-09-10

    申请号:CN202411102914.9

    申请日:2024-08-13

    Abstract: 本发明提供了一种电网非结构化数据深度聚类优化方法及系统,具体涉及电网数据存储领域,技术方案为:S1采集并重构电网系统中的非结构化数据得到重构数据;S2基于重构数据进行降维操作得到低维数据,基于低维数据的数据密度和K近邻算法找出低维数据的聚类中心集;S3搭建数据聚类模型,基于数据聚类模型对低维数据进行特征提取,将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果,基于聚类结果构建损失函数,基于梯度下降法最小化损失函数,不断迭代聚类结果直至损失函数趋于稳定值,得到聚类分配结果。本发明改善电网中非结构数据聚类精度低,处理效率低的问题,提高了非结构化数据处理的精度,以便从大量非结构化数据挖掘出有用信息。

Patent Agency Ranking