基于模型训练的分词方法、装置、设备以及介质

    公开(公告)号:CN112784547B

    公开(公告)日:2024-07-02

    申请号:CN202110202079.6

    申请日:2021-02-23

    Inventor: 李柯 刘晓宇 张玥

    Abstract: 本发明公开了一种基于模型训练的分词方法、装置、设备以及介质,该方法包括:选取目标领域对应的待分词样本数据;确定待分词样本数据对应的具有标注信息的各个分词序列;基于标注信息确定与各个分词序列对应的分词依据信息,分词依据信息包括词位依据信息和上下文依据信息;根据待分词样本数据和分词依据信息训练分词模型,得到训练好的分词模型,训练好的分词模型用于根据输入的文本数据输出相应的分词序列。本发明能够提高分词效果。

Patent Agency Ranking