-
公开(公告)号:CN119622822A
公开(公告)日:2025-03-14
申请号:CN202510161837.2
申请日:2025-02-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种隐私增强的关系型表格数据仿真生成方法,挖掘链接表L与具有外键关联的单表U、V中高度相关的属性,并将属性与链接表L进行合并,得到k个属性对相应的U、V表中的属性;根据链接表L的外键对应关系,将得到的属性与链接表L进行拼接,得到合并表#imgabs0#,根据链接表L的属性,将合并表#imgabs1#按列切分,得到仿真生成的链接表#imgabs2#;根据链接表#imgabs3#的合成结果,使用马尔科夫随机场模型仿真生成表#imgabs4#;根据链接表#imgabs5#的合成结果,使用马尔科夫随机场模型仿真生成表#imgabs6#。在仿真数据生成时提高仿真数据的效用,确保仿真数据在保护隐私的同时仍能保持其真实性和有效性。
-
公开(公告)号:CN115600765A
公开(公告)日:2023-01-13
申请号:CN202211464011.6
申请日:2022-11-17
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(CN)
IPC: G06Q10/04 , G06Q50/18 , G06F16/215 , G06F16/29 , G06N3/0464 , G06N3/08 , G01S19/42
Abstract: 基于图神经网络的安全事件预测方法、电子设备及存储介质,属于安全事件风险预测技术领域。为解决个体人员安全事件风险预测的问题。本发明采集人员基本信息数据,GPS时空轨迹数据,进行数据清洗,提取融合图节点特征,得到人员节点特征数据,地点节点特征数据,构建多维人员信息轨迹融合图,构建基于图神经网络的个体安全事件预测模型,将构建的多维人员信息轨迹融合图输入基于图神经网络的个体安全事件预测模型中进行安全事件预测。本发明为分析个体人员安全事件风险提供了融合信息特征,全面立体的挖掘人员自身的特点以及人员活动规律的特点,判断人员近期可能发生安全事件行为的风险是高或者低。
-
公开(公告)号:CN115269939A
公开(公告)日:2022-11-01
申请号:CN202211191349.9
申请日:2022-09-28
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/903
Abstract: 本发明公开了一种正则表达式生成方法、装置、智能终端及计算机存储介质,正则表达式生成方法包括:获取正样本数据和负样本数据;初始化正样本数据获得正则表达式种群;根据正样本数据和负样本数据评估正则表达式种群中正则表达式的适应度;根据适应度最高的正则表达式在正样本数据上进行样本匹配时的精确率,获得正则表达式集合;根据正则表达式集合获得最终正则表达式。本发明可以根据样本数据自动生成正则表达式,不需要人工编写大量的正则表达式,提高正则表达式的生成效率和准确性。
-
公开(公告)号:CN118626494B
公开(公告)日:2024-11-26
申请号:CN202411046420.3
申请日:2024-08-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22 , G06F40/18 , G06F40/186 , G06F40/117
Abstract: 本发明提供了一种结构化数据洞察生成方法、系统及介质,该方法包括以下步骤:使用对应的表格、问题和答案数据集对开源自然语言模型进行微调后,得到数据定位模型和洞察生成模型;数据定位模型从表格中识别出与问题相关的位置并标注;数据定位模型对表格使用预生成事实的方法从模板中生成相关推理事实;将标注后的表格、问题和生成的推理事实输入到洞察生成模型中,洞察生成模型给出最终的结构化数据洞察。相较现有技术,本发明减少了收集数据时人工标注的压力,提高了模型预测的可解释性和准确率,减少了语言模型在推理(尤其是数值推理)时的模型幻觉问题。
-
公开(公告)号:CN118798821A
公开(公告)日:2024-10-18
申请号:CN202411139998.3
申请日:2024-08-20
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06Q10/10 , G06Q10/0637 , G06Q10/04 , G06Q40/04
Abstract: 本申请涉及大数据大模型技术领域,提供了数据流通交易违规行为处理方法,该方法包括:基于数据流通交易的历史违规行为相关法律文书,构建历史违规行为所属类型对应的证据链;通过监控目标数据流通交易的过程,预测目标数据流通交易所属违规行为的类型;根据目标数据流通交易所属违规行为的类型和历史违规行为所属类型对应的证据链,确定目标数据流通交易的证据相关联的证据类型;根据目标数据流通交易的证据相关联的证据类型,构建目标数据流通交易的证据链;根据目标数据流通交易的证据链计算违规权重并与由具有相同违规行为类型的历史违规行为的证据链计算出的违规权重进行比较,确定目标数据流通交易是否违规。本申请的技术方案可以对数据流通交易过程中的违规行为进行有效判定和溯源。
-
公开(公告)号:CN115269939B
公开(公告)日:2023-02-17
申请号:CN202211191349.9
申请日:2022-09-28
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/903
Abstract: 本发明公开了一种正则表达式生成方法、装置、智能终端及计算机存储介质,正则表达式生成方法包括:获取正样本数据和负样本数据;初始化正样本数据获得正则表达式种群;根据正样本数据和负样本数据评估正则表达式种群中正则表达式的适应度;根据适应度最高的正则表达式在正样本数据上进行样本匹配时的精确率,获得正则表达式集合;根据正则表达式集合获得最终正则表达式。本发明可以根据样本数据自动生成正则表达式,不需要人工编写大量的正则表达式,提高正则表达式的生成效率和准确性。
-
公开(公告)号:CN115169594A
公开(公告)日:2022-10-11
申请号:CN202211100671.6
申请日:2022-09-09
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明适用于分布式机器学习调试领域,提供了一种隐私保护分布式机器的学习调试方法及调试系统,所述学习调试方法包括以下步骤:步骤S1:首先数据分析师建好分布式机器学习pipeline;步骤S2:在本地客户端训练过程中;步骤S3:服务端接收来自本地训练的模型和计算的调试中间值;步骤S4:服务端调试模块根据分布式机器学习调试算法基于服务端收集的调试元数据和各个客户端传送的调试中间值对本轮联邦训练进行检测;步骤S5:联邦训练结束后,输出本次训练的调试报告。旨在解决背景技术中存在的技术问题。
-
公开(公告)号:CN118626494A
公开(公告)日:2024-09-10
申请号:CN202411046420.3
申请日:2024-08-01
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22 , G06F40/18 , G06F40/186 , G06F40/117
Abstract: 本发明提供了一种结构化数据洞察生成方法、系统及介质,该方法包括以下步骤:使用对应的表格、问题和答案数据集对开源自然语言模型进行微调后,得到数据定位模型和洞察生成模型;数据定位模型从表格中识别出与问题相关的位置并标注;数据定位模型对表格使用预生成事实的方法从模板中生成相关推理事实;将标注后的表格、问题和生成的推理事实输入到洞察生成模型中,洞察生成模型给出最终的结构化数据洞察。相较现有技术,本发明减少了收集数据时人工标注的压力,提高了模型预测的可解释性和准确率,减少了语言模型在推理(尤其是数值推理)时的模型幻觉问题。
-
公开(公告)号:CN117236420B
公开(公告)日:2024-03-26
申请号:CN202311509786.5
申请日:2023-11-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/098 , G06F18/2113 , G06F18/214 , G06F18/2433 , G06F18/27 , G06F21/60 , G06F21/62 , G06Q40/03 , H04L9/08
Abstract: 本发明公开了一种基于数据子集的纵向联邦学习异常数据调试方法及系统,包括:发起方基于纵向联邦学习建模并进行联邦模型训练;利用训练后的联邦模型获取数据集中的问题数据子集,问题数据子集在联邦模型中的预测准确率低于其他数据子集在联邦模型中的预测准确率;对问题数据子集进行基于特征描述组合的筛选,获取带有异常描述的问题数据子集;发起方或参与方基于带有异常描述的问题数据子集进行数据溯源和纠正,并在纠正后重新训练联邦模型。本发明为隐私保护的联邦数据子集评估技术,在保证数据隐私下对联邦数据子集评估指标进行正确计算,形成基于数据子集的联邦学习调试方法,自动化定位异常数据,解决联邦学习模型表现异常的问题。
-
公开(公告)号:CN115169252A
公开(公告)日:2022-10-11
申请号:CN202211086686.1
申请日:2022-09-07
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种结构化仿真数据生成系统及生成方法,所述系统包括数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录。本发明系统和方法能够同时生成含有连续型特征和离散型特征的仿真数据记录;针对生成仿真数据,既保持了与原始数据一致的数据分布,也保证了与原始数据一致的特征间关联关系;同时提出一种根据所需条件生成仿真数据的方法,能够根据不同的仿真数据应用场景生成分析所需的仿真数据记录。
-
-
-
-
-
-
-
-
-