-
公开(公告)号:CN114203183B
公开(公告)日:2025-04-04
申请号:CN202111479318.9
申请日:2021-12-06
Applicant: 中国电信股份有限公司
IPC: G10L17/00 , G10L17/04 , G10L25/24 , G10L21/0208 , G06F18/214 , G06F18/2431
Abstract: 本公开涉及一种用户属性的识别方法、装置、电子设备及计算机可读介质,属于语音识别技术领域。该方法包括:获取待识别的通话语音数据,并提取所述通话语音数据对应的特征向量;将所述特征向量输入预先训练的外呼用户分类模型中,得到所述通话语音数据中的外呼用户的性别属性;根据所述外呼用户的性别属性从预先训练的两个接听用户分类模型中确定出目标接听用户分类模型;将所述特征向量输入所述目标接听用户分类模型中,得到所述通话语音数据中的接听用户的性别属性。本公开通过特征提取和模式匹配的方式,可以基于通话语音数据判断通话双方的角色类型和性别属性。
-
公开(公告)号:CN112513978B
公开(公告)日:2025-03-28
申请号:CN201880096300.0
申请日:2018-08-09
Applicant: 谷歌有限责任公司
Abstract: 公开了用于实现热词辨识和被动辅助的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括由计算设备接收与话语相对应的音频数据的动作,该计算设备正在低功率模式下操作并且包括在计算设备处于低功率模式时显示图形界面的显示器并且被配置成响应于检测到第一热词而退出低功率模式。该方法进一步包括确定音频数据包括第二不同的热词。该方法进一步包括通过对音频数据执行语音辨识来获得话语的转录。该方法进一步包括生成附加用户界面。该方法进一步包括提供附加图形界面以在显示器上输出。
-
公开(公告)号:CN119603486A
公开(公告)日:2025-03-11
申请号:CN202411784367.7
申请日:2024-12-06
Applicant: 广州趣丸网络科技有限公司
Inventor: 谢鹏源
IPC: H04N21/24 , H04N21/2187 , H04N21/233 , G10L17/00 , G06F18/22
Abstract: 本发明公开了一种直播挂机检测方法、装置、电子设备及存储介质,用于解决依靠图像算法检测挂机的方式容易产生误判的技术问题。本发明包括:从数据存储服务中实时拉取目标主播的主播麦克风音频;识别所述主播麦克风音频的主播声纹;当所述目标主播为注册主播时,获取所述目标主播的主播注册声纹;计算所述主播声纹和所述主播注册声纹之间的声纹相似度;根据所述声纹相似度判断主播是否挂机。
-
公开(公告)号:CN119601197A
公开(公告)日:2025-03-11
申请号:CN202510131191.3
申请日:2025-02-06
Applicant: 北京维思陆科技有限公司
Abstract: 本申请涉及一种基于声纹识别的智能呼叫方法、装置及设备,该方法包括当检测到多个位置同时发出呼叫指令时,获取每个位置当前正在进行的事件、历史事件以及呼叫日志,基于体征数据以及每个第一位置当前正在进行的事件、历史事件、呼叫日志以及第一音频信息确定每个第一位置的第一优先级,基于每个第二位置当前正在进行的事件、历史事件、呼叫日志以及第二音频信息确定每个第二位置的第二优先级,基于多个位置的数量确定工作人员的数量,并基于工作人员的数量、第一优先级以及第二优先级确定目标工作人员以及每个目标工作人员对应的目标位置。本申请能够在多个患者同时呼叫工作人员时便于工作人员有序地进行处理。
-
公开(公告)号:CN119520681A
公开(公告)日:2025-02-25
申请号:CN202411617985.2
申请日:2024-11-13
Applicant: 联通在线信息科技有限公司
Abstract: 本申请公开了一种基于说话人日志的诈骗预警方法,包括如下步骤:步骤1:将通话音频预处理后,通过VAD模型切分所述通话音频,保留语音内容;步骤2:在所述语音内容中提取声纹特征信息,确认说话人并生成说话人日志;步骤3:将不同的说话人日志分别输入至语义识别模型中,分别判断是否为诈骗场景;步骤4:若识别一方说话人为诈骗场景,则向另一方说话人发出预警信息。本方法能够生成通话音频中两个通话人分别的通话日志,再通过文本分类的方法区分出两个对话人的身份和诈骗类型,最后通过短信等方式提醒受害者,或对诈骗分子进行追踪和报警,从而便于及时地干预和阻止电信诈骗的发生,或在通话结束后进行反诈教育等。
-
公开(公告)号:CN119360832A
公开(公告)日:2025-01-24
申请号:CN202310855661.1
申请日:2023-07-12
Applicant: 北京嘀嘀无限科技发展有限公司
Abstract: 根据本公开的实施例,提供了用于语音处理的方法、装置、设备和介质。该方法包括提取唤醒词语音片段的唤醒词声纹特征,唤醒词语音片段与唤醒词相匹配,唤醒词声纹特征指示目标说话人;将目标语音划分为至少一个语音片段,目标语音在唤醒词语音片段之后被采集;提取至少一个语音片段的至少一个声纹特征;基于至少一个声纹特征与唤醒词声纹特征的相似度,分别确定至少一个语音片段是否来自目标说话人;以及基于至少一个语音片段是否来自目标说话人的确定结果,确定对至少一个语音片段的指令词识别。由此,在语音唤醒和语音控制应用中可以减少噪声干扰或他人语音干扰。
-
公开(公告)号:CN114627869B
公开(公告)日:2025-01-03
申请号:CN202210266096.0
申请日:2022-03-17
Applicant: 广东美的厨房电器制造有限公司 , 美的集团股份有限公司
Abstract: 本发明提出了一种音频输出方法、输出装置、烹饪设备、服务器和存储介质。其中,音频输出方法,包括:响应于语音控制指令,识别语音控制指令对应的身份识别信息,以及语音控制指令中的语义信息;将身份识别信息和语义信息发送至服务器,以供服务器根据身份识别信息和语义信息确定第一音频数据;接收并播放来自服务器的第一音频数据。本发明通过将用户发出的语音控制指令对应的语义信息和身份识别信息发送至服务器,服务器能够根据语义信息和身份识别信息确定相应的第一音频数据。通过目标设备输出来自服务器的第一音频数据,能够在保证目标设备播报的语音对应的语义符合用户需求的同时,满足用户对播报语义的个性化需求。
-
公开(公告)号:CN119068532A
公开(公告)日:2024-12-03
申请号:CN202411192470.2
申请日:2024-08-27
Applicant: 平安科技(深圳)有限公司
IPC: G06V40/16 , G06V10/764 , G06V40/70 , G06Q10/0635 , G06Q40/04 , G10L17/00 , G10L17/02 , G10L17/06 , G10L25/51 , G10L25/63
Abstract: 本申请提出的一种用于视频面审的风险评估方法和装置、设备、存储介质,涉及人工智能技术领域及金融科技领域。该方法包括:对处于视频面审状态的目标面审对象进行图像采集,得到目标对象图像;对处于视频面审状态的目标面审对象进行语音采集,得到目标对象语音;根据目标对象图像进行人脸身份检测,得到对象身份信息;根据目标对象语音进行声纹真实性检测,得到对象声纹信息;根据目标面审状态数据对目标面审对象进行面审异常检测,得到面审异常信息;其中,目标面审状态数据包括目标对象图像和目标对象语音中的至少一种;根据对象身份信息、所述对象声纹信息和所述面审异常信息进行风险评估。本申请能够高效进行风险评估,提高视频面审的安全性。
-
公开(公告)号:CN119011750A
公开(公告)日:2024-11-22
申请号:CN202410993921.6
申请日:2024-07-23
Applicant: 上海哔哩哔哩科技有限公司
Inventor: 李亘杰
IPC: H04N5/262 , G10L17/00 , G10L15/26 , H04N21/2343 , H04N21/4402 , H04N21/854
Abstract: 本申请提供了一种剪辑视频的方法、相关装置及计算机程序产品,该申请基于目标对象的声纹信息,从源视频中提取出对应于目标对象的一组视频片段,其中,一组视频片段中的视频片段对应于目标对象在源视频中发出的一次语音内容;基于视频片段的语音内容的文字转写结果,确定视频片段各自相对应的内容标签;根据内容标签对一组视频片段中的至少部分的目标视频片段进行排序,得到排序结果,其中,排序结果为针对目标对象的剪辑视频。由此,能够提升视频的剪辑质量和效率。
-
公开(公告)号:CN114822545B
公开(公告)日:2024-11-08
申请号:CN202210298454.6
申请日:2022-03-25
Applicant: 华南理工大学
IPC: G10L15/26 , G10L15/22 , G10L17/00 , G10L17/22 , G10L21/0208
Abstract: 本发明公开了一种提高专业领域语音识别率的方法,主要用于识别专业领域或特定行业的语音。专业领域中通常涉及大量的专业术语以及该专业领域各个应用部门结合了本地特征的特有名词,如含有所在地点名称的设备名、工作段名称乃至专业者的人名,因而语音识别错误率比较高,本发明提出二次差频原理,自动建立差频专用词库,包含保存本地专用词汇的一级差频子库和保存专业术语的二级差频子库。以差频专用词汇为中心匹配拼音与文字,采用任意位置转换机制。通过这些步骤,可以提高语音识别的准确率,特别是能识别本地专业部门的专用词汇。
-
-
-
-
-
-
-
-
-