-
公开(公告)号:CN119339393A
公开(公告)日:2025-01-21
申请号:CN202411463715.0
申请日:2024-10-21
Applicant: 厦门大学
IPC: G06V30/26 , G06V30/41 , G06V30/14 , G06V20/62 , G06F40/284 , G06V10/82 , G06N3/0464 , G06V30/19 , G06V30/12
Abstract: 本发明公开了一种基于n‑gram模型的中文文档的OCR后处理方法、装置及可读介质,该方法先利用OCR识别得到每个文本框的平均识别置信度、位置和n‑gram模型的评分判断是否需要进行文本框合并,如果需要进行文本框合并,则再进一步判断合并后文本框的文字结果是否需要采用形近字库中的形近字进行替换,如果替换后的文字结果的n‑gram模型的评分显著提升,则将替换后的文字结果作为OCR识别结果进行输出,从而实现对识别结果的优化,提高识别的准确度。