-
公开(公告)号:CN112784547B
公开(公告)日:2024-07-02
申请号:CN202110202079.6
申请日:2021-02-23
Applicant: 南方电网储能股份有限公司信息通信分公司
IPC: G06F40/169 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种基于模型训练的分词方法、装置、设备以及介质,该方法包括:选取目标领域对应的待分词样本数据;确定待分词样本数据对应的具有标注信息的各个分词序列;基于标注信息确定与各个分词序列对应的分词依据信息,分词依据信息包括词位依据信息和上下文依据信息;根据待分词样本数据和分词依据信息训练分词模型,得到训练好的分词模型,训练好的分词模型用于根据输入的文本数据输出相应的分词序列。本发明能够提高分词效果。