基于肿瘤医学文本语义主题提取与知识图谱构建的方法

    公开(公告)号:CN117828080A

    公开(公告)日:2024-04-05

    申请号:CN202410001877.6

    申请日:2024-01-02

    Applicant: 吉林大学

    Abstract: 基于肿瘤医学文本语义主题提取与知识图谱构建的方法属语言处理技术领域,本发明针对现有主题模型应用于大规模肿瘤医学文本适用性不足的问题,采取的技术方案如下:基于网络爬取的肿瘤医学文本获取方法;基于肿瘤医学研究标签的文本聚类方法;肿瘤医学文本预处理技术;基于肿瘤医学文本的主题模型;基于图论的主题聚类方法;基于预训练模型的实体识别与关系抽取;可视化。本发明基于肿瘤医学文本主题提取,并结合基于实体识别与关系抽取技术构建的肿瘤知识图谱丰富主题词语义信息,能得到肿瘤医学文本对应的语义主题。

Patent Agency Ranking