一种电子病历后结构化以及辅助诊断的实现方法及其系统

    公开(公告)号:CN106383853A

    公开(公告)日:2017-02-08

    申请号:CN201610787187.3

    申请日:2016-08-30

    Applicant: 刘勇

    CPC classification number: G06F16/258

    Abstract: 本发明涉及一种电子病历后结构化以及辅助诊断的实现方法及其系统,使用的是几种距离度量的组合方式:字符串编辑距离指的是某字符变为另外一个字符串最少需要多少次替换,插入,删除操作。Jaro-Winkler距离是衡量两个字符串之间的相似性,用于重复记录的检测。采用汉字字符距离和汉字输入法距离的几何均值作为综合相似度度量来衡量特征文本之间的相似度。特征排名使用TF-IDF的方法来实现,用以评估特征术语相对于文件集或语料库中文档的重要程度,特征术语的重要性与在该文档中出现的频率成正比,与在语料库中出现的频率成反比。根据生成的特征术语,转换成正例数据集和无标注数据集PU学习的文件格式,经过PU学习,系统自动推荐相关的诊断以供临床医务人员参考。

Patent Agency Ranking