一种基于大数据的古籍文字识别方法及系统

    公开(公告)号:CN119763133A

    公开(公告)日:2025-04-04

    申请号:CN202411826139.1

    申请日:2024-12-12

    Abstract: 本发明涉及古籍文字识别技术领域,公开了一种基于大数据的古籍文字识别方法及系统,其技术方案要点是:构建古籍图像数据集;基于神经网络对数据集进行预处理;构建古籍识别模型,对预处理后的数据集进行识别;构建评估模型,计算评估参数,验证古籍识别模型的性能;通过神经网络预测数据集中是否包含现代文字或图像,以便于对古籍图像进行细致分类;再利用古籍识别模型提高古籍的识别精度和对图像多尺度变化的感知能力。

    一种基于机器学习的古籍分类方法及系统

    公开(公告)号:CN119917660A

    公开(公告)日:2025-05-02

    申请号:CN202411977234.1

    申请日:2024-12-31

    Abstract: 本发明公开了一种基于机器学习的古籍分类方法及系统,属于书籍分类技术领域。一种基于机器学习的古籍分类方法及系统,包括收集并预处理用于训练、验证和测试的古籍文本数据;从预处理后的古籍文本中提取出能够有效表示其内容和结构的文本特征,利用双向长短时记忆网络捕捉文本中的长距离依赖关系;使用迁移学习技术,结合预训练的分词模型与分类器进行调整;输出分类结果,并提供用户反馈机制以持续优化分类模型。本发明解决了寻找特定主题或时期的古籍文献资料需要大量的时间和精力,人工编目容易出错且效率低下的问题。本发明显著提升了古籍分类的效率与准确性,有效提高分类精度。

Patent Agency Ranking