一种模型训练数据处理方法、装置与电子设备

    公开(公告)号:CN119398046A

    公开(公告)日:2025-02-07

    申请号:CN202411496911.8

    申请日:2024-10-24

    Inventor: 刘康 杨明川

    Abstract: 本公开提供一种模型训练数据处理方法、装置与电子设备。模型训练数据处理方法包括:对模型训练数据中的训练文本进行分词预处理以形成第一分词列表,对所述第一分词列表进行词汇去重后得到第二分词列表,所述第二分词列表包括多个不重复的待处理词汇;根据所述第一分词列表对应的词向量矩阵形成所述训练文本的文本向量矩阵;确定所述待处理词汇的词向量与所述文本向量矩阵的相似度,将所述相似度最大的K个所述待处理词汇确定为所述训练文本的K个主题词,K≥1;在所述模型训练数据中将所述K个主题词相同的训练文本分为一组,在同组内对所述文本向量矩阵的相似度大于预设阈值的训练文本进行去重。本公开实施例可以提高模型训练效率。

    词向量处理方法及装置、存储介质及电子设备

    公开(公告)号:CN116562232A

    公开(公告)日:2023-08-08

    申请号:CN202310532544.1

    申请日:2023-05-11

    Abstract: 本公开提供一种词向量处理方法、装置、存储介质及电子设备,涉及自然语言处理技术领域。词向量处理方法包括:获取目标文本中待处理词和待处理词的上下文信息;初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,词向量编码模型用于生成待处理词的词向量;根据第一权重矩阵、待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定词向量编码模型中隐藏层向量;字相关性参数表征一个词中多个字向量之间的相关性;根据隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;根据调整第一权重矩阵后的词向量编码模型,生成待处理词的词向量。本公开考虑了组成词的多个字之间的紧密联系程度,生成的词向量更为准确。

    基于可信环境的应用服务系统、方法及相关设备

    公开(公告)号:CN117874769A

    公开(公告)日:2024-04-12

    申请号:CN202410064201.1

    申请日:2024-01-16

    Abstract: 本公开提供了一种基于可信环境的应用服务系统、方法及相关设备,涉及人工智能技术领域。该系统包括:可信数据管理模块、可信算力管理模块、可信模型训练管理模块和模型服务模块;其中,可信数据管理模块用于接入可信的数据资源提供方;可信算力管理模块用于接入可信的算力资源提供方;可信模型训练管理模块用于提供可信的模型训练环境,并基于可信数据管理模块提供的数据资源和可信算力管理模块提供的算力资源,为不同的应用服务训练相应的应用服务模型;模型服务模块用于提供训练好的应用服务模型。本公开能够为应用服务模型训练提供安全可信的高质量数据和算力资源,并能够解决数据提供方、算力提供方以及模型训练方之间的信任问题。

Patent Agency Ranking