一种社交媒体平台对话数据的处理方法、装置及设备

    公开(公告)号:CN116975243A

    公开(公告)日:2023-10-31

    申请号:CN202210453846.5

    申请日:2022-04-24

    Abstract: 本发明提供一种社交媒体平台对话数据的处理方法、装置及设备,其中,社交媒体平台对话数据的处理方法包括:获取至少一个社交媒体平台的对话数据;对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到至少一个社交媒体平台的对话数据的第一级过滤结果;将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。本发明的方案可以针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理,方便使用,具有极强的通用性和易用性。

    一种基于大模型的学科交互问答方法及助教智能体

    公开(公告)号:CN119271766A

    公开(公告)日:2025-01-07

    申请号:CN202411043303.1

    申请日:2024-07-31

    Abstract: 本发明提供一种基于大模型的学科交互问答方法及助教智能体,该方法包括:建立学科知识库;基于检索增强算法从学科知识库中确定知识片段;知识片段作为大模型的上下文信息;基于学科知识库,设计隐含交互流程的提示词;隐含交互流程的提示词包括大模型的解答背景、多轮解答逻辑结构和每轮解答的内容与格式要求;输入知识片段和隐含交互流程的提示词至预训练的大模型,得到大模型输出的学科交互问答结果。本发明通过学科知识库可以提高大模型回答的准确性和相关性。并且通过隐含交互流程的提示词,来使大语言模型针对特定学科进行交互式多轮问题,以实现在回答学生问题过程中隐藏、引导、逐步给出问题解答思路,对学生具有更好的实用价值。

    安全检测方法、装置、电子设备及可读存储介质

    公开(公告)号:CN117874751A

    公开(公告)日:2024-04-12

    申请号:CN202311576697.2

    申请日:2023-11-23

    Abstract: 本发明提供一种安全检测方法、装置、电子设备及可读存储介质,其中的方法包括:获取待检测文本;获取用户端对待检测文本的子任务检测指令;基于预先训练的安全检测模型,根据待检测文本的子任务检测指令,对待检测文本进行安全检测,得到安全检测结果;其中,安全检测模型通过根据训练样本数据集进行训练优化得到,以及,安全检测模型包括多个安全检测子任务模块。该方法通过包括多个安全检测子任务模块的安全检测模型对待检测文本进行安全检测,能够用于检测各种文本的安全性,克服了现有安全检测方法通用性不高、解释性不强且检测准确度低的缺陷,实现了更加准确、全面的检测性能。

    训练数据抽取方法和装置
    4.
    发明公开

    公开(公告)号:CN116821678A

    公开(公告)日:2023-09-29

    申请号:CN202310721227.4

    申请日:2023-06-16

    Applicant: 清华大学

    Inventor: 黄民烈 张哲昕

    Abstract: 本发明提供一种训练数据抽取方法和装置,包括:获取待处理数据前缀;将所述待处理数据前缀和软提示序列进行拼接,以得到待处理任务;其中,所述软提示序列是基于预先构建的原始向量序列利用训练数据集根据训练损失函数进行训练得到的;将所述待处理任务输入至预先选择的被攻击模型,根据所述待处理任务采样得到至少两个待选后缀序列;对所述待选后缀序列重排序;对重排序后的所述待选后缀序列进行筛选,以得到目标数据后缀。本发明在给定前缀的情况下,为了引出被攻击模型中的记忆,通过训练完成的软提示序列来辅助提取目标的训练数据,并用校准置信度对其进行筛选,以恢复训练数据中的后缀,实现召回率更高、鲁棒性更高的训练数据的抽取。

    利用可解释推理网络的多关系问答系统

    公开(公告)号:CN107992528B

    公开(公告)日:2022-07-05

    申请号:CN201711115025.6

    申请日:2017-11-13

    Applicant: 清华大学

    Abstract: 本申请公开了一种利用可解释推理网络的多关系问答方法,其通过多跳方式进行,所述方法包括:步骤1、将输入的问题转换为分布式的问题表示;步骤2、根据前一跳的推理状态和前一跳的问题表示,预测当前跳的关系;步骤3、如果所预测的当前跳的关系并非终止关系,则根据所预测的当前跳的关系,将所述前一跳的推理状态和所述前一跳的问题表示更新为当前跳的推理状态和当前跳的问题表示,并作为下一跳返回到步骤2,否则,转到步骤4;以及所述步骤4、根据当前跳的推理状态,确定并输出当前跳的回答。该方法可提供可追踪和可观察的中间预测,用于推理分析和故障诊断。

    建立文本生成模型的方法、装置、介质和计算设备

    公开(公告)号:CN110414003B

    公开(公告)日:2021-09-14

    申请号:CN201910690023.2

    申请日:2019-07-29

    Applicant: 清华大学

    Abstract: 本发明的实施方式提供了一种建立文本生成模型的方法。该方法包括:将基于真实数据采样生成的至少一个训练样本输入鉴别器,以得到所述训练样本的奖励分数;基于所述训练样本及其奖励分数训练生成器。通过基于真实数据获得的训练样本以及鉴别器输出的奖励分数训练生成器,本发明的方法使得训练过程更加稳定,并且显著地提升了生成文本的质量。此外,本发明的实施方式提供了一种建立文本生成模型的装置、介质和计算设备。

    基于综合策略的情绪支持对话生成方法及系统

    公开(公告)号:CN113326704A

    公开(公告)日:2021-08-31

    申请号:CN202110621266.8

    申请日:2021-06-03

    Applicant: 清华大学

    Inventor: 黄民烈

    Abstract: 本发明实施例提供一种基于综合策略的情绪支持对话生成方法及系统,其中方法包括:确定待生成的情绪支持对话;将所述待生成的情绪支持对话输入至对话生成模型中,得到所述对话生成模型输出的情绪支持对话生成结果;所述对话生成模型是基于情绪支持对话样本数据及所述样本数据对应的策略标注训练得到的;所述对话生成模型用于基于所述情绪支持对话样本数据进行情绪支持策略框架提取后,对所述待生成的情绪支持对话进行对话生成。本发明解决了现有对话系统无法综合利用多种策略实现有效的情绪支持的问题。

    文本生成方法、装置、介质和计算设备

    公开(公告)号:CN110110331B

    公开(公告)日:2021-02-26

    申请号:CN201910362399.0

    申请日:2019-04-30

    Applicant: 清华大学

    Inventor: 邵智宏 黄民烈

    Abstract: 本发明的实施方式提供了一种文本生成方法。该方法包括:将文本生成任务规划为多个文本块生成子任务;重复执行以下文本块生成子任务直到所有子任务执行完毕:基于输入数据集合的子集组合序列中的当前子集以及在先子任务生成文本块。根据本发明的文本生成方法,在生成文本过程中模拟人类的写作过程,合理规划文章结构和各个部分的内容,能够使得长文本中的句子与前后文之前取得较高的一致性和流畅性,并且更加全面的覆盖输入数据集合。此外,本发明的实施方式提供了一种文本生成装置、介质和计算设备。

    对话方法、介质、装置和计算设备

    公开(公告)号:CN110569339A

    公开(公告)日:2019-12-13

    申请号:CN201910663791.9

    申请日:2019-07-22

    Applicant: 清华大学

    Abstract: 本发明的实施方式提供了一种对话方法。所述对话包括对话双方之间的多轮对话,所述对话双方的一方为目标智能体,另一方为用户或对手智能体,所述方法包括:根据本轮对话中的对手话语预估目标智能体对应的动作;基于预估的所述动作估计对手对应的动作;选择针对所述对手动作的最优动作;按照选择的所述最优动作生成相应的话语。通过预估对手的动作以选择更加合适的动作并生成相应的话语,本发明的方法使得智能体的决策具有前瞻性,能够产生更加合适的对话,为用户带来了更好的体验。此外,本发明的实施方式提供了一种对话装置、介质及计算设备。

    模型获取方法、关键词生成方法、装置、介质及计算设备

    公开(公告)号:CN109960749A

    公开(公告)日:2019-07-02

    申请号:CN201910136539.2

    申请日:2019-02-22

    Applicant: 清华大学

    Abstract: 本发明的实施方式提供了一种模型获取方法、关键词生成方法、装置、介质及计算设备。模型获取方法包括:构建关键词生成模型,该模型包括基于编码器‑注意力机制‑解码器框架的主模块;在监督学习阶段,针对每个训练数据对,主模块基于其中源关键词和参考目标关键词的语义和领域信息构建概率分布,从概率分布中采样第一隐变量,生成第一目标关键词;通过最小化主模块的损失函数,利用梯度反向传播方式来更新主模块的参数。本发明的上述技术能够生成热门高频关键词以外的低频相关关键词,通过引入领域约束使生成的目标关键词与源关键词的领域更相关;此外,还可利用强化学习进一步地提高关键词的相关性和领域一致性。

Patent Agency Ranking