用于构建训练数据的方法、电子设备和计算机程序产品

Invention Publication

CN119848249A 用于构建训练数据的方法、电子设备和计算机程序产品审中-实审

Please log in to see more content

Patent Title: 用于构建训练数据的方法、电子设备和计算机程序产品
Application No.: CN202311333218.4

Application Date: 2023-10-13
Publication No.: CN119848249A

Publication Date: 2025-04-18
Inventor: 倪嘉呈 , 王子嘉 , 刘志松 , 贾真
Applicant: 戴尔产品有限公司
Applicant Address: 美国得克萨斯州
Assignee: 戴尔产品有限公司
Current Assignee: 戴尔产品有限公司
Current Assignee Address: 美国得克萨斯州
Agency: 北京市金杜律师事务所
Agent 成城
Main IPC: G06F16/35
IPC: G06F16/35 ; G06N20/00 ; G06F18/214 ; G06F16/9535

Abstract:

本公开的实施例涉及用于构建训练数据的方法、电子设备和计算机程序产品。该方法包括通过对训练数据集内的提示词进行聚类，来确定多个聚类。基于多个聚类的多个内聚程度，确定与多个聚类相对应的多个采样概率，其中内聚程度指示聚类内的簇内距离。该方法还包括根据多个采样概率，确定用于采样的目标聚类。该方法还包括通过从目标聚类中采样目标提示词，来构建目标训练数据。根据本公开的实施例，在对语言模型进行微调时，可以根据提示词的聚类结果对提示词进行筛选，使得确定的提示词更有标注价值，从而保证训练得到的语言模型的输出结果全面化多样化。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类