-
公开(公告)号:CN101192405A
公开(公告)日:2008-06-04
申请号:CN200710187573.X
申请日:2007-12-03
Applicant: 索尼株式会社
Inventor: 山田敬一
CPC classification number: G10L15/1807 , G10L25/15 , G10L25/90
Abstract: 本发明提供了一种语音处理设备、语音处理方法和语音处理程序。这里公开了一种语音处理设备,用于基于输入的语音的韵律特性来识别所述语音,所述语音处理设备包括:语音采集装置,用于采集所述输入语音;声学分析装置,用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及韵律识别装置,用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程,以产生所述韵律识别过程的结果。
-
公开(公告)号:CN101086741B
公开(公告)日:2012-03-21
申请号:CN200710110756.1
申请日:2007-06-11
Applicant: 索尼株式会社
IPC: G06F17/30
CPC classification number: G06F17/30038 , G06F17/30032 , G06F17/30265 , G06F17/30787 , G06F17/30793 , G06F17/30817
Abstract: 提供一种信息处理装置及信息处理方法,实现高效高精度地执行与内容对应的元数据的生成的装置以及方法。执行与正在鉴赏内容的用户之间的交互,取得交互执行时的用户图像、声音,根据这些信息分析提取基于交互的元数据并进行记录。根据该结构,不产生任何用户负担而能够进行元数据的提取、记录。并且,即使在基于内容的元数据提取处理时,也能够通过参照基于交互的元数据来估计内容的实质,进行限定了适用词典的元数据提取,实现高精度的元数据提取。
-
公开(公告)号:CN101192405B
公开(公告)日:2011-05-25
申请号:CN200710187573.X
申请日:2007-12-03
Applicant: 索尼株式会社
Inventor: 山田敬一
CPC classification number: G10L15/1807 , G10L25/15 , G10L25/90
Abstract: 本发明提供了一种语音处理设备、语音处理方法和语音处理程序。这里公开了一种语音处理设备,用于基于输入的语音的韵律特性来识别所述语音,所述语音处理设备包括:语音采集装置,用于采集所述输入语音;声学分析装置,用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异,来找出相对音调变化;以及韵律识别装置,用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程,以产生所述韵律识别过程的结果。
-
公开(公告)号:CN1855227A
公开(公告)日:2006-11-01
申请号:CN200610071198.8
申请日:2006-01-26
Applicant: 索尼株式会社
CPC classification number: H04R3/005 , G10L2021/02165
Abstract: 本发明提供了一种用于分离音频信号的装置,该装置可以解决在通过独立分量分析分离多个混合信号时的置换问题。提供了一种音频信号分离装置,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离为独立的信号以产生隔离信号,该装置包括:第一转换部分,用于将时域内的观测信号转换为时-频域内的观测信号;分离部分,用于从时-频域内的观测信号中产生时-频域内的隔离信号;以及第二转换部分,用于将时-频域内的隔离信号转换为时域内的隔离信号,该分离部分适于从时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号。
-
公开(公告)号:CN1897113B
公开(公告)日:2011-03-16
申请号:CN200610088741.5
申请日:2006-06-05
Applicant: 索尼株式会社
CPC classification number: G10L21/0272
Abstract: 当使用独立分量分析来分离混合在音频信号中的多个信号中的每个时,能够以高准确度解决置换问题,而无需利用关于原始信号的知识或关于麦克风位置的信息等。短时傅立叶变换部件从时域内的观察信号生成观察信号的频谱图。信号分离部件将观察信号的频谱图分离成各个信号的频谱图,以生成分离信号的频谱图。置换问题解决部件从分离信号的频谱图的基本上全体,计算与置换度相对应的尺度,例如通过使用多维概率密度函数计算的Kullback-Leiblar信息量、或者多维峰度。基于该尺度,在通道之间交换在分离信号的频谱图的每个频率格的信号,以解决置换问题。
-
公开(公告)号:CN101655867A
公开(公告)日:2010-02-24
申请号:CN200910162386.5
申请日:2007-06-11
Applicant: 索尼株式会社
IPC: G06F17/30
CPC classification number: G06F17/30038 , G06F17/30032 , G06F17/30265 , G06F17/30787 , G06F17/30793 , G06F17/30817
Abstract: 提供一种信息处理装置及信息处理方法,实现高效高精度地执行与内容对应的元数据的生成的装置以及方法。执行与正在鉴赏内容的用户之间的交互,取得交互执行时的用户图像、声音,根据这些信息分析提取基于交互的元数据并进行记录。根据该结构,不产生任何用户负担而能够进行元数据的提取、记录。并且,即使在基于内容的元数据提取处理时,也能够通过参照基于交互的元数据来估计内容的实质,进行限定了适用词典的元数据提取,实现高精度的元数据提取。
-
公开(公告)号:CN1897113A
公开(公告)日:2007-01-17
申请号:CN200610088741.5
申请日:2006-06-05
Applicant: 索尼株式会社
CPC classification number: G10L21/0272
Abstract: 当使用独立分量分析来分离混合在音频信号中的多个信号中的每个时,能够以高准确度解决置换问题,而无需利用关于原始信号的知识或关于麦克风位置的信息等。短时傅立叶变换部件从时域内的观察信号生成观察信号的频谱图。信号分离部件将观察信号的频谱图分离成各个信号的频谱图,以生成分离信号的频谱图。置换问题解决部件从分离信号的频谱图的基本上全体,计算与置换度相对应的尺度,例如通过使用多维概率密度函数计算的Kullback-Leiblar信息量、或者多维峰度。基于该尺度,在通道之间交换在分离信号的频谱图的每个频率格的信号,以解决置换问题。
-
公开(公告)号:CN101625675A
公开(公告)日:2010-01-13
申请号:CN200910158846.7
申请日:2009-07-08
Applicant: 索尼株式会社
CPC classification number: G10L17/10 , G06T7/277 , G06T2207/10016 , G06T2207/30201
Abstract: 本发明公开了一种信息处理装置、信息处理方法和计算机程序。一种信息处理装置包括信息输入单元、事件检测单元和信息合成处理单元。基于来自信息输入单元如摄像机和麦克风的图像和声音信息,获得包括用户标识数据的观察值。对设置有多个用户置信度的目标数据进行更新,然后进行用户标识。观察值中的用户标识信息用于更新用来让目标与相应用户对应的候选数据的同时发生概率。这样的概率的更新值用于计算与目标对应的用户置信度。
-
公开(公告)号:CN101373593A
公开(公告)日:2009-02-25
申请号:CN200810135064.7
申请日:2008-07-25
Applicant: 索尼株式会社
Inventor: 山田敬一
CPC classification number: G10L15/1807 , G10L25/90
Abstract: 本发明公开了一种语音分析设备、语音分析方法和计算机程序,其中该语音分析设备分析语音信息的韵律特性并输出韵律辨别结果,该语音分析设备包括:输入单元,其输入语音信息;声学分析单元,其计算相对基音变化量;以及辨别单元,其执行语音辨别处理,其中,该声学分析单元计算当前模板相对基音差,判定当前模板相对基音差与先前模板相对基音差之间的差值绝对值是否等于或小于预定阈值,当该值不小于所述阈值时计算相邻相对基音差,当该相邻相对基音差等于或小于预先设置的容限值时,执行将当前模板相对基音差加上或减去八度音的修正处理,以通过应用所述相对基音差作为当前分析帧的相对基音差来计算相对基音变化量。
-
公开(公告)号:CN101086741A
公开(公告)日:2007-12-12
申请号:CN200710110756.1
申请日:2007-06-11
Applicant: 索尼株式会社
IPC: G06F17/30
CPC classification number: G06F17/30038 , G06F17/30032 , G06F17/30265 , G06F17/30787 , G06F17/30793 , G06F17/30817
Abstract: 提供一种信息处理装置及信息处理方法,实现高效高精度地执行与内容对应的元数据的生成的装置以及方法。执行与正在鉴赏内容的用户之间的交互,取得交互执行时的用户图像、声音,根据这些信息分析提取基于交互的元数据并进行记录。根据该结构,不产生任何用户负担而能够进行元数据的提取、记录。并且,即使在基于内容的元数据提取处理时,也能够通过参照基于交互的元数据来估计内容的实质,进行限定了适用词典的元数据提取,实现高精度的元数据提取。
-
-
-
-
-
-
-
-
-