-
公开(公告)号:CN114529758A
公开(公告)日:2022-05-24
申请号:CN202210084807.2
申请日:2022-01-25
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于对比学习和多头自注意力机制的多模态情感分析方法,本发明采用预训练模型,对文本和图片进行序列特征提取,之后针对图像采用基于多头自注意力机制的Transformer‑Encoder结构进行二次序列特征提取,然后将文本序列特征和图像序列特征拼接后使用Transformer‑Encoder进行特征提取,得益于自注意力机制,可以帮助文本和图像特征更好的对齐和融合;最后采用多任务学习,辅助模型更好的进行情感分类任务;同时加入两种辅助对比学习任务,帮助模型更好的提取学习文本和图像融合后的特征,帮助模型提升数据情感的区分能力。
-
公开(公告)号:CN113836867A
公开(公告)日:2021-12-24
申请号:CN202110998663.7
申请日:2021-08-27
Applicant: 黑龙江阳光惠远信息技术有限公司 , 哈尔滨工业大学
IPC: G06F40/126 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF‑kernel来转换M,得到矩阵K1至Kk,对于第p个kernel,计算矩阵Kp:对于授权专利文本和未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。所述装置包括向量化编码模块、第一计算模块、转换模块、第二计算模块和预测模块。
-
公开(公告)号:CN111597778A
公开(公告)日:2020-08-28
申请号:CN202010294829.2
申请日:2020-04-15
Applicant: 哈尔滨工业大学
IPC: G06F40/166 , G06F40/232 , G06F40/58
Abstract: 本发明涉及一种基于自监督的机器翻译译文自动优化的方法和系统,属于机器翻译领域。所述方法包括以下步骤:步骤一、使用大规模平行语料对模型进行训练,使模型学习替换操作;步骤二、使用人工构造的伪数据对模型进行训练,使模型学习插入操作,得到训练好的模型;步骤三、使用训练好的模型对待优化的译文中的每个词和词间空隙进行候选词预测,完成替换和插入的后编辑操作。本发明利用双语平行语料作为模型预训练的输入,使得模型在不同机器翻译系统上都能获得良好的优化性能,是一种通用的机器翻译自动后编辑模型。
-
公开(公告)号:CN110335152A
公开(公告)日:2019-10-15
申请号:CN201910621240.6
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06Q40/04
Abstract: 基于标签组合的股市分析方法,本发明涉及股市分析方法。本发明的目的是为了解决现有传统的基本面分析方法需要考虑非常多的信息,以及依赖深度学习的方法以黑盒的方式考虑信息,没有很好的可解释性,模型一旦固定,很难再融合其他信息的问题。过程为:一、定义股票和标签的基本特征;二、建立标签之间的关系以及股票之间的关系;三、判断是否为股票开盘时间,若是,执行四;若否,结束;四、获取当前股票的行情数据;五、基于建立的标签之间的关系、股票之间的关系和获取当前股票的行情数据,选出热门的标签组合,基于热门的标签组合,选出热门的标签;六、将选出的热门标签以网络图的方式展示。本发明用于股市分析领域。
-
公开(公告)号:CN110334300A
公开(公告)日:2019-10-15
申请号:CN201910621253.3
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06F16/957 , G06F16/958 , G06F16/34 , G06F17/27
Abstract: 本发明提供面向舆情分析的文本辅助阅读方法,属于自然语言处理技术领域。本发明首先对各种类型网页使用统一方法进行正文抽取;然后对文本进行人物、地点、机构等实体的命名实体识别并突出显示;再对文本进行自动摘要,并将句子按重要度进行排序并突出显示。本发明解决了现有舆情分析人员阅读大量文本资料时存在重点提取困难、阅读效率低下的问题。本发明可用于舆情分析的文本辅助阅读,阅读者能够快速获得主旨信息。
-
公开(公告)号:CN104731774B
公开(公告)日:2018-02-02
申请号:CN201310722090.0
申请日:2013-12-24
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289
Abstract: 本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
-
公开(公告)号:CN107357789A
公开(公告)日:2017-11-17
申请号:CN201710575907.4
申请日:2017-07-14
Applicant: 哈尔滨工业大学
Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1-3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
-
公开(公告)号:CN104199813B
公开(公告)日:2017-05-24
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN117556251B
公开(公告)日:2025-03-18
申请号:CN202311332989.1
申请日:2023-10-16
Applicant: 哈尔滨工业大学
IPC: G06F18/214 , G06F18/241
Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。
-
公开(公告)号:CN119378574A
公开(公告)日:2025-01-28
申请号:CN202411408324.9
申请日:2024-10-10
Applicant: 哈尔滨工业大学
Abstract: 一种基于情感增强的语音大语言模型翻译强化方法,涉及人工智能领域。解决现有技术中缺少如何高效地将语音模态信息融入到现有的大语言模型中,使其完成端到端的语音自动翻译任务。所述方法包括:收集包含多种情感表达的语音与文本对的多语言数据集,并进行预处理,构成原文语音与文本和译文语音与文本的多语言语料对;将多语言语料对的语音部分输入到语音大语言模型中,令语音大语言模型对其进行翻译;使用情感契合度打分模型对步骤2中的翻译结果进行评估,判断翻译结果中的语音情感与原文语音与文本的多语言语料对中的情感是否一致;使用打分模型为同一问题的不同结果进行打分,根据分数从高到低排序进行DPO算法,更新语音大语言模型的参数。
-
-
-
-
-
-
-
-
-