一种基于Spark大数据平台的并行CRF方法

    公开(公告)号:CN108921188B

    公开(公告)日:2020-11-17

    申请号:CN201810500016.7

    申请日:2018-05-23

    Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

    一种基于知识图谱的关系链接方法

    公开(公告)号:CN107480125B

    公开(公告)日:2020-08-04

    申请号:CN201710543849.7

    申请日:2017-07-05

    Abstract: 本发明请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组 列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。

    一种基于社交网络海量情景数据的用户关系发现方法

    公开(公告)号:CN109857871A

    公开(公告)日:2019-06-07

    申请号:CN201910077708.X

    申请日:2019-01-28

    Abstract: 本发明属于用户关系挖掘领域,尤其涉及一种基于社交网络海量情景数据的用户关系发现方法,包括获取网络中用户产生的情景数据信息以及用户所在网络的边关系类型,提取图像中的文本信息,对文本类型数据集进行预处理;利用实体链接工具获取预处理后的情景数据集中文本的实体向量,作为先验知识加入到对应文本中;构建卷积神经网络提取文本数据集中的有效特征等综合考虑来对节点进行量化;根据节点的向量化结果求出每两个节点的余弦距离并以此来作为用户间的关系强弱值;本发明增加原有数据的语义信息,提高机器对文本的可读性和理解性,减少深度学习对数据标签的依赖性,还能减弱很多分类问题中出现的边缘问题,降低过拟合的风险,优化模型性能。

    一种基于Spark大数据平台的并行CRF算法

    公开(公告)号:CN108921188A

    公开(公告)日:2018-11-30

    申请号:CN201810500016.7

    申请日:2018-05-23

    Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

    一种基于密度峰值的网格聚类算法

    公开(公告)号:CN107491779A

    公开(公告)日:2017-12-19

    申请号:CN201710502536.7

    申请日:2017-06-27

    CPC classification number: G06K9/6223 G06K9/6265

    Abstract: 本发明请求保护一种基于密度峰值的网格聚类算法,能够高效的对大规模数据进行处理。首先,本文将N维空间粒化为不相交的长方形网格单元,然后统计单元空间的信息。利用密度峰值聚类寻找中心点的思想确定中心单元,即中心网格单元被一些低局部密度的数据单元包围,而且与比自身局部密度高的网格单元的距离相对较大。最后合并与中心网格单元相近网格单元,从而得出聚类结果。在UCI人工数据集上的仿真实验结果表明,本文算法能够较快的得出聚类中心,有效的处理大规模数据的聚类问题,具有较高的效率,与原始的密度峰值聚类算法相比,在不同数据集上时间损耗降低10~100倍,而精度损失维持在5%~8%。

    缩微智能车辆寻线控制方法和装置

    公开(公告)号:CN102541063A

    公开(公告)日:2012-07-04

    申请号:CN201210082214.9

    申请日:2012-03-26

    Abstract: 本发明涉及智能交通领域,提供一种缩微智能车辆寻线控制方法,利用图像采集装置,获得道路的单通道灰度图像,对图像进行自适应阈值二值化处理,对单通道二值化图像进行边缘检测,在经过边缘检测处理后的图像中进行寻线处理,确定左车道线或/和右车道线;还提供一种缩微智能车辆寻线控制装置,包括与中央处理器相连接的图像获取模块、图像自适应阈值二值化处理模块、边缘检测模块、车道线寻线处理模块和车道线识别模块;本发明对图像进行滤光处理,能够去除比车道线宽的其它白色干扰,极大提升了光线不均匀、车道有强反光等在复杂环境下识别左或/和右车道线的准确率。

    细粒度数据完整性检验方法

    公开(公告)号:CN101582106B

    公开(公告)日:2011-07-06

    申请号:CN200910104142.1

    申请日:2009-06-19

    Abstract: 本发明提供一种具有较高压缩率、较低错误放大率的细粒度数据完整性检验方法,包括如下步骤:1)对源数据对象和待检验数据对象分别执行如下步骤,分别获得源数据对象和待检验数据对象的Hash数据矩阵:11)将数据对象组织为至少一个数据方阵;12)对同一数据方阵中的数据对象进行重复交叉组合,组成多个数据序列,对每个数据序列进行单向Hash计算,获得数据对象的Hash数据矩阵,使每个数据对象参与多个Hash数据运算,每个Hash数据由多个数据对象计算获得;2)对源数据对象的Hash数据矩阵和待检验数据对象的Hash数据矩阵中的对应元素进行比对,根据比较结果判断待检验数据对象与源数据对象是否相同。

    一种基于公平性增强的联邦学习方法

    公开(公告)号:CN119962635A

    公开(公告)日:2025-05-09

    申请号:CN202510058630.2

    申请日:2025-01-15

    Abstract: 本发明涉及联邦学习领域,特别涉及一种基于公平性增强的联邦学习方法,包括优化样本选择和资源分配以提升模型的公平性;通过Gower相似性度量和层次聚类对数据进行分层处理,确保不同层次数据的代表性;结合参数化损失权重的动态权重调整策略,实时优化数据层的敏感性,动态平衡不同数据层在训练中的贡献,完成权重分配优化;构建基于自编码器的加权聚合模型,利用自编码器对数据进行异常检测,结合公平性指标优化全局模型的更新;本发明能够有效减少本地模型偏差,并在异构数据环境下显著提升联邦学习的公平性和模型精度。

    一种面向医疗数据的差分隐私知识迁移方法及系统

    公开(公告)号:CN115985433B

    公开(公告)日:2025-05-06

    申请号:CN202211296875.1

    申请日:2022-10-21

    Abstract: 本发明涉及差分隐私机器学习技术领域,具体涉及一种面向医疗数据的差分隐私知识迁移方法及系统,方法包括数据拥有者将拥有的隐私医疗数据划分为n份,每份分别采用逻辑回归训练一个医疗诊断分类模型,n个模型组成医疗诊断teacher模型,完成训练的该模型对数据使用者发送的无标签医疗数据进行预测,得到数据的分类结果;将n个模型的投票结果聚合在一起后,在聚合后的投票结果上加上高斯噪声扰动,并将加上扰动后投票数最多的标签发送给数据使用者为无标签数据打上标签;数据使用者利用获得的带标签的数据在本地进行训练,得到student模型;本发明解决了现有技术在医疗中心的强隐私要求下模型准确率低下的问题。

    一种基于路侧摄像头的电动汽车充电需求感知方法

    公开(公告)号:CN119889055A

    公开(公告)日:2025-04-25

    申请号:CN202510068932.8

    申请日:2025-01-16

    Abstract: 本发明属于电动汽车充电领域,涉及一种基于路侧摄像头的电动汽车充电需求感知方法,包括:计算每个路口的车流量权重、车辆等待时间权重、道路宽度权重以及部署摄像头的成本,并结合贪心算法和遗传算法确定部署摄像头的路口;根据车流量权重、车辆等待时间权重以及道路宽度权重确定部署摄像头的路口处的摄像头的清晰度和数量利用摄像头采集视频数据,将摄像头采集到的视频数据进行边缘处理后传输到云端;云端根据接收到的数据进行综合判断和预警;本发明结合改进贪心算法和遗传算法根据车流量权重、车辆等待时间权重、道路宽度权重以及部署摄像头的成本确定道路监控摄像头的位置,使摄像头在满足最大化道路覆盖率的同时,最小化部署成本。

Patent Agency Ranking