-
公开(公告)号:CN115374252A
公开(公告)日:2022-11-22
申请号:CN202211291117.0
申请日:2022-10-21
Applicant: 北京语言大学
IPC: G06F16/33 , G06F16/35 , G06F40/247 , G06F40/30 , G06K9/62
Abstract: 本发明涉及文本分级技术领域,特别是指一种基于原生Bert架构的文本分级方法及装置,方法包括:在原生Bert模型的词表中,增加一个新的特殊标记[LEVEL];获取初始训练样本并进行预处理,预处理后的训练样本的序列形式为[CLS]W1W2W3...Wn[SEP]K,其中,W1W2W3...Wn表示训练样本的文本,K表示训练样本的特殊标记[LEVEL]的参数值,即训练样本对应的复杂度等级;基于训练样本,对预训练的原生Bert模型进行fine‑tuning训练,得到训练好的复杂度分级模型;对初始待分级文本进行预处理,将预处理后的待分级文本输入到训练好的复杂度分级模型中,得到初始待分级文本对应的复杂度等级。采用本发明,可以更加简洁的将Bert模型应用到文本分级任务中,减少参数量,降低模型复杂度。
-
公开(公告)号:CN117174092B
公开(公告)日:2024-01-26
申请号:CN202311449029.3
申请日:2023-11-02
Applicant: 北京语言大学
IPC: G10L17/00 , G10L17/02 , G10L25/30 , G10L25/60 , G10L15/26 , G06V10/40 , G06V10/82 , G06V20/40 , G06V40/10 , G06N3/0464 , G06N3/0442 , G06N3/08 , H04L67/1095 , H04L9/40 , G06F21/60
Abstract: 本发明公开了一种基于声纹识别与多模态分析的移动语料转写方法及装置,涉及视频语音融合识别技术领域。包括:获取待分析的视频数据以及音频数据;将视频数据以及音频数据输入到构建好的数据处理模型,得到数据处理结果,包括视频数据的关键信息标注结果、音频数据的转写结果以及音频数据的分析结果;对转写结果进行实时校验以及二次标注,得到多模态数据的移动语料转写结果。本发明提出了一种集成了多模态分析、实时数据校验与查阅功能的先进移动语料转写系统,旨在为用户提供更加准确、完整和直观的转写体验。
-
公开(公告)号:CN117174092A
公开(公告)日:2023-12-05
申请号:CN202311449029.3
申请日:2023-11-02
Applicant: 北京语言大学
IPC: G10L17/00 , G10L17/02 , G10L25/30 , G10L25/60 , G10L15/26 , G06V10/40 , G06V10/82 , G06V20/40 , G06V40/10 , G06N3/0464 , G06N3/0442 , G06N3/08 , H04L67/1095 , H04L9/40 , G06F21/60
Abstract: 本发明公开了一种基于声纹识别与多模态分析的移动语料转写方法及装置,涉及视频语音融合识别技术领域。包括:获取待分析的视频数据以及音频数据;将视频数据以及音频数据输入到构建好的数据处理模型,得到数据处理结果,包括视频数据的关键信息标注结果、音频数据的转写结果以及音频数据的分析结果;对转写结果进行实时校验以及二次标注,得到多模态数据的移动语料转写结果。本发明提出了一种集成了多模态分析、实时数据校验与查阅功能的先进移动语料转写系统,旨在为用户提供更加准确、完整和直观的转写体验。
-
公开(公告)号:CN115374252B
公开(公告)日:2022-12-23
申请号:CN202211291117.0
申请日:2022-10-21
Applicant: 北京语言大学
IPC: G06F16/33 , G06F16/35 , G06F40/247 , G06F40/30 , G06K9/62
Abstract: 本发明涉及文本分级技术领域,特别是指一种基于原生Bert架构的文本分级方法及装置,方法包括:在原生Bert模型的词表中,增加一个新的特殊标记[LEVEL];获取初始训练样本并进行预处理,预处理后的训练样本的序列形式为[CLS]W1W2W3...Wn[SEP]K,其中,W1W2W3...Wn表示训练样本的文本,K表示训练样本的特殊标记[LEVEL]的参数值,即训练样本对应的复杂度等级;基于训练样本,对预训练的原生Bert模型进行fine‑tuning训练,得到训练好的复杂度分级模型;对初始待分级文本进行预处理,将预处理后的待分级文本输入到训练好的复杂度分级模型中,得到初始待分级文本对应的复杂度等级。采用本发明,可以更加简洁的将Bert模型应用到文本分级任务中,减少参数量,降低模型复杂度。
-
-
-