-
公开(公告)号:CN117708339B
公开(公告)日:2024-04-23
申请号:CN202410165651.X
申请日:2024-02-05
Applicant: 中南大学
IPC: G06F16/35 , G06F16/33 , G06N3/0455 , G06N3/0464 , G06N3/08 , G16H10/60
Abstract: 本发明实施例中提供了一种基于预训练语言模型的ICD自动编码方法,属于数据处理技术领域,具体包括:构建ICD自动编码数据集;形成映射集;构造前缀树,结合前缀树形成LEDT模型;将ICD自动编码数据集分为训练集和验证集;分别将训练集和验证集中的临床文本和其对应的ICD代码分割;利用seq2seq训练数据集训练LEDT模型;将待编码数据集中的输入文本输入目标模型,并在目标模型的解码生成过程中,使用前缀树对生成的字符进行限制,同时使用集束算法保留输出得分最高的k个预测描述,最终利用映射集将输出的k个预测描述转换为对应的ICD代码作为预测输出。通过本发明的方案,提高了编码效率、精准度和适应性。
-
公开(公告)号:CN117708339A
公开(公告)日:2024-03-15
申请号:CN202410165651.X
申请日:2024-02-05
Applicant: 中南大学
IPC: G06F16/35 , G06F16/33 , G06N3/0455 , G06N3/0464 , G06N3/08 , G16H10/60
Abstract: 本发明实施例中提供了一种基于预训练语言模型的ICD自动编码方法,属于数据处理技术领域,具体包括:构建ICD自动编码数据集;形成映射集;构造前缀树,结合前缀树形成LEDT模型;将ICD自动编码数据集分为训练集和验证集;分别将训练集和验证集中的临床文本和其对应的ICD代码分割;利用seq2seq训练数据集训练LEDT模型;将待编码数据集中的输入文本输入目标模型,并在目标模型的解码生成过程中,使用前缀树对生成的字符进行限制,同时使用集束算法保留输出得分最高的k个预测描述,最终利用映射集将输出的k个预测描述转换为对应的ICD代码作为预测输出。通过本发明的方案,提高了编码效率、精准度和适应性。
-