用于构建训练数据的方法、电子设备和计算机程序产品
Abstract:
本公开的实施例涉及用于构建训练数据的方法、电子设备和计算机程序产品。该方法包括通过对训练数据集内的提示词进行聚类,来确定多个聚类。基于多个聚类的多个内聚程度,确定与多个聚类相对应的多个采样概率,其中内聚程度指示聚类内的簇内距离。该方法还包括根据多个采样概率,确定用于采样的目标聚类。该方法还包括通过从目标聚类中采样目标提示词,来构建目标训练数据。根据本公开的实施例,在对语言模型进行微调时,可以根据提示词的聚类结果对提示词进行筛选,使得确定的提示词更有标注价值,从而保证训练得到的语言模型的输出结果全面化多样化。
Patent Agency Ranking
0/0