-
公开(公告)号:CN118016102B
公开(公告)日:2024-07-16
申请号:CN202410410974.0
申请日:2024-04-08
Applicant: 湖北经济学院
IPC: G10L25/51 , G06N3/0442 , G06N3/08 , G10L25/30 , G10L25/24 , G10L21/0272 , G01S5/22
Abstract: 本申请实施例提供一种基于非调制声音信号的定位方法及装置,属于语音识别技术领域,其中方法包括:通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;使用librosa库将分离音频转换为MFCC特征向量;将MFCC特征向量输入至预训练好的BiLSTM模型,获取分离音频的音频类别;将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。本申请实施例实现定位不需要依赖于特定的麦克风阵列设备或超声波设备。
-
公开(公告)号:CN118016102A
公开(公告)日:2024-05-10
申请号:CN202410410974.0
申请日:2024-04-08
Applicant: 湖北经济学院
IPC: G10L25/51 , G06N3/0442 , G06N3/08 , G10L25/30 , G10L25/24 , G10L21/0272 , G01S5/22
Abstract: 本申请实施例提供一种基于非调制声音信号的定位方法及装置,属于语音识别技术领域,其中方法包括:通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;使用librosa库将分离音频转换为MFCC特征向量;将MFCC特征向量输入至预训练好的BiLSTM模型,获取分离音频的音频类别;将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。本申请实施例实现定位不需要依赖于特定的麦克风阵列设备或超声波设备。
-
公开(公告)号:CN117975383A
公开(公告)日:2024-05-03
申请号:CN202410387616.2
申请日:2024-04-01
Applicant: 湖北经济学院
IPC: G06V20/54 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种基于多模态图像融合技术的车辆定位和识别方法,包括:获取目标车辆在当前环境下红外图像和对应的可见光图像;判断当前环境是否为暗光环境,若为暗光环境,则将红外图像和可见光图像输入至融合生成模型,获得融合生成模型输出的增强可见光图像,否则,将可见光图像作为增强可见光图像;将红外图像和增强可见光图像输入至车辆检测模型,获得车辆检测模型输出的目标车辆的位置和型号;车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。通过本申请,实现了对目标车辆的被动定位和车型识别,保证了不同光照情况下都可以获取较为准确的车辆定位和识别结果。
-
公开(公告)号:CN118884350B
公开(公告)日:2024-12-03
申请号:CN202411345733.9
申请日:2024-09-26
Applicant: 湖北经济学院 , 达昌技术发展有限公司
Abstract: 本发明涉及声音定位技术领域,提供了一种声音识别及定位的方法和装置。本发明提取至少三个音频数据的FBank特征和LPC特征,据此生成音频数据的多模型拼接特征,并对其中与声源类别和声源距离相关的模式进行建模,得到联合特征表示,进而分别实现对音频数据所属的声源类别和声源距离的预测;最后根据至少三个音频数据的声源类别和声源距离,构建至少三个三维音频球体,将构建的多个三维音频球体的交点确定为用户设备的位置;本发明定位准确度较高,解决了现有技术的声源定位方案存在的定位精度低和计算成本高的问题。
-
公开(公告)号:CN118884350A
公开(公告)日:2024-11-01
申请号:CN202411345733.9
申请日:2024-09-26
Applicant: 湖北经济学院 , 达昌技术发展有限公司
Abstract: 本发明涉及声音定位技术领域,提供了一种声音识别及定位的方法和装置。本发明提取至少三个音频数据的FBank特征和LPC特征,据此生成音频数据的多模型拼接特征,并对其中与声源类别和声源距离相关的模式进行建模,得到联合特征表示,进而分别实现对音频数据所属的声源类别和声源距离的预测;最后根据至少三个音频数据的声源类别和声源距离,构建至少三个三维音频球体,将构建的多个三维音频球体的交点确定为用户设备的位置;本发明定位准确度较高,解决了现有技术的声源定位方案存在的定位精度低和计算成本高的问题。
-
公开(公告)号:CN117975383B
公开(公告)日:2024-06-21
申请号:CN202410387616.2
申请日:2024-04-01
Applicant: 湖北经济学院
IPC: G06V20/54 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种基于多模态图像融合技术的车辆定位和识别方法,包括:获取目标车辆在当前环境下红外图像和对应的可见光图像;判断当前环境是否为暗光环境,若为暗光环境,则将红外图像和可见光图像输入至融合生成模型,获得融合生成模型输出的增强可见光图像,否则,将可见光图像作为增强可见光图像;将红外图像和增强可见光图像输入至车辆检测模型,获得车辆检测模型输出的目标车辆的位置和型号;车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。通过本申请,实现了对目标车辆的被动定位和车型识别,保证了不同光照情况下都可以获取较为准确的车辆定位和识别结果。
-
-
-
-
-