-
公开(公告)号:CN109495115B
公开(公告)日:2022-08-09
申请号:CN201811295448.5
申请日:2018-11-01
Applicant: 哈尔滨工业大学
Abstract: 一种基于FPGA的LDPC译码器及译码方法,它属于通信领域中信道编码技术领域。本发明解决了如何在减少硬件资源开销的同时提高LDPC译码器的吞吐率的问题。本发明利用兵乓缓存的方法将串行电路与并行部分分离,各部分采用独立的时钟,以保证连续数据流的流入流出与高吞吐率;而且本发明采用一种新的循环存储的方式以解决地址冲突问题,避免了桶形移位寄存器或连接网络的使用,同时减小了译码电路硬件资源占用率。当采用本发明的部分并行译码结构,并行度为7,主时钟频率选择110MHz,码率7/8,子矩阵维度511,迭代次数15次,平均变量节点更新时钟数为1.008时,吞吐率达到的最大值约为356.48Mbps。本发明可以应用于通信领域中信道编码技术领域。
-
公开(公告)号:CN117556251B
公开(公告)日:2025-03-18
申请号:CN202311332989.1
申请日:2023-10-16
Applicant: 哈尔滨工业大学
IPC: G06F18/214 , G06F18/241
Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。
-
公开(公告)号:CN109495115A
公开(公告)日:2019-03-19
申请号:CN201811295448.5
申请日:2018-11-01
Applicant: 哈尔滨工业大学
Abstract: 一种基于FPGA的LDPC译码器及译码方法,它属于通信领域中信道编码技术领域。本发明解决了如何在减少硬件资源开销的同时提高LDPC译码器的吞吐率的问题。本发明利用兵乓缓存的方法将串行电路与并行部分分离,各部分采用独立的时钟,以保证连续数据流的流入流出与高吞吐率;而且本发明采用一种新的循环存储的方式以解决地址冲突问题,避免了桶形移位寄存器或连接网络的使用,同时减小了译码电路硬件资源占用率。当采用本发明的部分并行译码结构,并行度为7,主时钟频率选择110MHz,码率7/8,子矩阵维度511,迭代次数15次,平均变量节点更新时钟数为1.008时,吞吐率达到的最大值约为356.48Mbps。本发明可以应用于通信领域中信道编码技术领域。
-
公开(公告)号:CN118114686B
公开(公告)日:2024-10-18
申请号:CN202410157029.4
申请日:2024-02-04
Applicant: 哈尔滨工业大学
Abstract: 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质,属于机器翻译技术领域,解决了大语言模型在执行训练数据之外或者低资源、特殊领域的翻译任务时翻译效果不好,如果对模型微调,使其继续适应需求,会带来更庞大的计算资源,难以实施的问题。所述方法包括:S1:构建领域知识库,将待翻译原文输入到所述领域知识库中,获得领域知识;S2:构建大语言模型,将待翻译原文和所述领域知识输入到所述大语言模型中,对所述领域知识进行增强,获得增强后的领域知识;S3:根据待翻译原文和增强后的领域知识,构建prompt;S4:采用大语言模型,结合所述prompt,对待翻译原文进行翻译,获得多个翻译结果。本发明适用于各种特定领域的大批量文本翻译场景。
-
公开(公告)号:CN118114686A
公开(公告)日:2024-05-31
申请号:CN202410157029.4
申请日:2024-02-04
Applicant: 哈尔滨工业大学
Abstract: 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质,属于机器翻译技术领域,解决了大语言模型在执行训练数据之外或者低资源、特殊领域的翻译任务时翻译效果不好,如果对模型微调,使其继续适应需求,会带来更庞大的计算资源,难以实施的问题。所述方法包括:S1:构建领域知识库,将待翻译原文输入到所述领域知识库中,获得领域知识;S2:构建大语言模型,将待翻译原文和所述领域知识输入到所述大语言模型中,对所述领域知识进行增强,获得增强后的领域知识;S3:根据待翻译原文和增强后的领域知识,构建prompt;S4:采用大语言模型,结合所述prompt,对待翻译原文进行翻译,获得多个翻译结果。本发明适用于各种特定领域的大批量文本翻译场景。
-
公开(公告)号:CN117993396A
公开(公告)日:2024-05-07
申请号:CN202410091557.4
申请日:2024-01-23
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/284 , G06F40/289 , G06F18/22
Abstract: 本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域,本发明对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;基于原文嵌入表示与翻译资料库,进行相似度计算;根据相似度计算获取和需求接近的翻译示例,结合翻译示例和大模型,生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文,在特定领域翻译和翻译风格化上有着很好的效果。
-
公开(公告)号:CN117993396B
公开(公告)日:2024-11-12
申请号:CN202410091557.4
申请日:2024-01-23
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/284 , G06F40/289 , G06F18/22
Abstract: 本发明是一种基于RAG的大模型机器翻译方法。本发明涉及大语言模型翻译技术领域,本发明对原始语言序列分词处理,对语言序列嵌入表示转化,基于同语言建立翻译资料库;基于翻译需求,对原始语言进行拆分,进行原文嵌入表示获取;基于原文嵌入表示与翻译资料库,进行相似度计算;根据相似度计算获取和需求接近的翻译示例,结合翻译示例和大模型,生成贴合需求的译文。发明采用的prompt构造方式相比于普通的prompt以及随意使用示例的prompt能够更好的帮助大语言模型生成符合需求的译文,在特定领域翻译和翻译风格化上有着很好的效果。
-
公开(公告)号:CN117556251A
公开(公告)日:2024-02-13
申请号:CN202311332989.1
申请日:2023-10-16
Applicant: 哈尔滨工业大学
IPC: G06F18/214 , G06F18/241
Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。
-
-
-
-
-
-
-