Invention Publication
- Patent Title: 用于构建训练数据的方法、电子设备和计算机程序产品
-
Application No.: CN202311333218.4Application Date: 2023-10-13
-
Publication No.: CN119848249APublication Date: 2025-04-18
- Inventor: 倪嘉呈 , 王子嘉 , 刘志松 , 贾真
- Applicant: 戴尔产品有限公司
- Applicant Address: 美国得克萨斯州
- Assignee: 戴尔产品有限公司
- Current Assignee: 戴尔产品有限公司
- Current Assignee Address: 美国得克萨斯州
- Agency: 北京市金杜律师事务所
- Agent 成城
- Main IPC: G06F16/35
- IPC: G06F16/35 ; G06N20/00 ; G06F18/214 ; G06F16/9535

Abstract:
本公开的实施例涉及用于构建训练数据的方法、电子设备和计算机程序产品。该方法包括通过对训练数据集内的提示词进行聚类,来确定多个聚类。基于多个聚类的多个内聚程度,确定与多个聚类相对应的多个采样概率,其中内聚程度指示聚类内的簇内距离。该方法还包括根据多个采样概率,确定用于采样的目标聚类。该方法还包括通过从目标聚类中采样目标提示词,来构建目标训练数据。根据本公开的实施例,在对语言模型进行微调时,可以根据提示词的聚类结果对提示词进行筛选,使得确定的提示词更有标注价值,从而保证训练得到的语言模型的输出结果全面化多样化。
Information query