음성 인식 방법 및 장치
    1.
    发明公开
    음성 인식 방법 및 장치 失效
    用于识别语音的方法和装置

    公开(公告)号:KR1020060072504A

    公开(公告)日:2006-06-28

    申请号:KR1020040111164

    申请日:2004-12-23

    CPC classification number: G10L15/08 G10L15/32

    Abstract: 본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 입력 음성의 특징과 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하고, 이 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정함으로써, 음성 인식률이 매우 높아지고, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)이 대폭 감소된다.

    음성 인식 방법 및 장치
    2.
    发明授权
    음성 인식 방법 및 장치 失效
    用于识别语音的方法和装置

    公开(公告)号:KR100682909B1

    公开(公告)日:2007-02-15

    申请号:KR1020040111164

    申请日:2004-12-23

    CPC classification number: G10L15/08 G10L15/32

    Abstract: 본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 입력 음성의 특징과 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하고, 이 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정함으로써, 음성 인식률이 매우 높아지고, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)이 대폭 감소된다.

    다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
    3.
    发明授权
    다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 有权
    다중계층중심어휘목록에기초하여대규모단어음성인식방법및그장치

    公开(公告)号:KR100748720B1

    公开(公告)日:2007-08-13

    申请号:KR1020060012529

    申请日:2006-02-09

    Abstract: A large-vocabulary speech recognition method on the basis of a multi-layer central lexicon and an apparatus therefor are provided to perform detailed matching only for vocabularies of a region similar to input utterance through a symbol matching process of a phoneme recognized result and a central lexicon in a tree structure. A multi-pass symbol matching unit(140) performs the multi-pass symbol matching between a phoneme recognition string and a pronunciation string of a central lexicon layered as a tree structure. A detailed matching unit(150) performs detail matching for selecting a speed recognition result by using a detailed acoustic model for candidate vocabulary sets selected by the multi-pass symbol matching. The multi-pass symbol matching unit(140) tracks a node which records the maximum matching score per each layer, and repeats a node tracking process until the multi-pass symbol matching unit(140) arrives at the terminating node.

    Abstract translation: 提供了基于多层中央词典的大词汇量语音识别方法及其装置,以通过音素识别结果和中心的词汇识别结果的符号匹配处理仅对与输入话语类似的区域的词汇表进行详细匹配 在树结构的词典。 多通道符号匹配单元(140)执行音素识别串与层叠为树结构的中心词典的发音串之间的多遍符号匹配。 详细匹配单元(150)通过使用由多遍符号匹配选择的候选词汇集的详细声学模型来执行用于选择速度识别结果的细节匹配。 多通道符号匹配单元(140)跟踪每个层记录最大匹配分数的节点,并且重复节点跟踪处理,直到多通道符号匹配单元(140)到达终止节点。

    인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
    4.
    发明授权
    인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 有权
    识别可靠性测量方法和识别可靠性测量系统使用识别候选词典的距离

    公开(公告)号:KR100717385B1

    公开(公告)日:2007-05-11

    申请号:KR1020060012528

    申请日:2006-02-09

    Abstract: 입력 음성 신호로부터 검출한 음소열에 매칭되는 최적한 개수의 인식 후보를 추출하고, 추출된 인식 후보간의 사전적 거리(Lexical Distance) 추정에 따른 음성 신호에 대한 등록 어휘 여부를 정확하게 수행할 수 있는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 개시한다. 인식 신뢰도 측정 방법은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계와, 추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계를 포함한다.
    음성 인식, 신뢰도, 인식 후보, 사전적 거리, 음소열

    Abstract translation: 提取的最佳数量的识别候补,它认识到,可以准确地是否根据现有或所提取的识别候选(词汇的距离)之间的距离为一语音信号中的登记单词来执行估计可靠性输入从语音信号匹配的一列音素检测 公开了一种测量方法和识别可靠性测量系统。 和一个识别置信测量方法,包括在相和将提取的音素热用于从所述语音信号的输入特征向量提取音素热提取识别候选中登记的预定的一组单词(字典)中的词汇的音素列的匹配的步骤; 估计所提取的识别候选之间的词汇距离并基于词典距离确定是否注册词汇。

    음성 인식 장치 및 방법
    5.
    发明授权
    음성 인식 장치 및 방법 失效
    用于识别语音的装置和方法

    公开(公告)号:KR100664960B1

    公开(公告)日:2007-01-04

    申请号:KR1020050094068

    申请日:2005-10-06

    CPC classification number: G10L15/142

    Abstract: A voice recognition apparatus and a method thereof are provided to calculate a hidden Markov model state representing a characteristic parameter of a predetermined unit of a voice by using single waveform probability distribution to obtain a score and calculate a state having a high score using multi-waveform probability distribution to produce a score. A voice recognition apparatus includes a characteristic vector extractor(330), an expected node extractor(350), a single waveform similarity calculator(315), a multi-waveform similarity calculator(320), and an output unit(340). The characteristic vector extractor splits an input voice signal into unit regions and extracts characteristic vectors corresponding to the unit regions. The expected node extractor extracts a list of second nodes which are expected to move to first nodes corresponding to the characteristic vectors with reference to a predetermined network composed of at least one node. The single waveform similarity calculator substitutes the characteristic vectors for single waveform probability distribution constructing a voice signal corresponding to the second nodes to obtain single waveform similarities between the first nodes and the second nodes of the list. The multi-waveform similarity calculator substitutes the characteristic vectors for multi-waveform probability distribution constructing single waveform probability distribution which produces single waveform similarity included in a predetermined range among the single waveform similarities to produce multi-waveform similarities. The output unit outputs a function execution signal corresponding to multi-waveform probability distribution which produces the highest value among the multi-waveform similarities.

    Abstract translation: 提供一种语音识别装置及其方法,通过使用单波形概率分布来计算表示声音的预定单位的特征参数的隐马尔可夫模型状态,以获得分数并使用多波形计算具有高分数的状态 概率分布产生得分。 语音识别装置包括特征向量提取器(330),预期节点提取器(350),单个波形相似度计算器(315),多波形相似度计算器(320)和输出单元(340)。 特征向量提取器将输入的语音信号分离成单位区域,并提取与单位区域对应的特征向量。 参考由至少一个节点组成的预定网络,期望节点提取器提取期望移动到与特征向量对应的第一节点的第二节点的列表。 单波形相似度计算器代替构成与第二节点对应的语音信号的单波形概率分布的特征向量,以获得列表的第一节点和第二节点之间的单波形相似度。 多波形相似度计算器将构成单波形概率分布的多波形概率分布的特征向量代入单波形相似度中产生预定范围内的单一波形相似度,产生多波形相似度。 输出单元输出对应于在多波形相似度中产生最高值的多波形概率分布的功能执行信号。

    어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
    6.
    发明公开
    어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 有权
    使用LEXICON GROUP TREE识别LEXICON的方法和装置

    公开(公告)号:KR1020060088687A

    公开(公告)日:2006-08-07

    申请号:KR1020050009611

    申请日:2005-02-02

    CPC classification number: G06F17/2765 G10L15/197

    Abstract: 본 발명은 메모리에 저장된 어휘 중에서 입력된 음성에 가장 가까운 어휘를 선택하는 방법 및 장치에 관한 것이다.
    본 발명에 따른 어휘 그룹 트리 생성 방법은, 소정의 어휘 그룹에 속하는 어휘들을 대표하는 중심 어휘를 생성하는 제1 단계와, 상기 중심 어휘를 이용하여 어휘 그룹 내에서 어휘간의 거리가 가장 먼 두 개의 어휘를 선택하고 상기 선택된 두 개의 어휘를 기준으로 상기 어휘 그룹을 가리키는 노드를 분할하는 제2 단계와, 상기 분할된 노드를 포함하는 현재 단말 노드 중에서 그룹 유사도가 낮은 노드를 선택하고 상기 선택된 노드가 가리키는 어휘 그룹에 대하여 상기 제1 단계 및 상기 제2 단계를 반복하는 제3 단계로 이루어진다.
    음성 인식, 어휘 그룹(lexicon group), 중심 어휘(centroid lexicon), 노드, 어휘 그룹 트리

    은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
    7.
    发明公开
    은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 失效
    用于补偿可能性密度函数的方法,用于语音识别的方法和装置

    公开(公告)号:KR1020050088014A

    公开(公告)日:2005-09-01

    申请号:KR1020040013815

    申请日:2004-02-28

    CPC classification number: G10L15/144

    Abstract: 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치가 개시된다. 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 특징벡터를 입력했을 때 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 전역분산을 적용하고, 보상 팩터를 이용하여 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.

    휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
    9.
    发明授权
    휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 有权
    휴대단말기에서음음성인식에의한멀티미디어데이터검색방법및그장치

    公开(公告)号:KR100735820B1

    公开(公告)日:2007-07-06

    申请号:KR1020060020089

    申请日:2006-03-02

    Abstract: A method for searching for multimedia data through a speech recognition in a portable terminal and an apparatus thereof are provided to convert a list of music titles into information used in recognition at a music storage or download site or at the portable terminal itself. A method for searching for multimedia data through a speech recognition in a portable terminal includes the following several steps. The portable terminal enables a user to input a speech query(610). The portable terminal extracts a speech feature vector from the inputting speech query(620). The portable terminal decodes the extracted speech feature vector sequence into a candidate phone sequence(630). The portable terminal performs a partial matching operation by using the candidate phone sequence and a lexicon reference pattern stored at a music database(640). The portable terminal performs a detailed matching procedure on a phone segment matched with a candidate recognition list attained via the partial matching operation through an alignment procedure(650). The portable terminal calculates a matching score in accordance with the matching procedure(660). The portable terminal displays a music information search result by the calculated matching score(670).

    Abstract translation: 提供了一种用于在便携式终端中通过语音识别搜索多媒体数据的方法及其装置,用于将音乐标题列表转换为在音乐存储或下载站点或便携式终端本身识别时使用的信息。 在便携式终端中通过语音识别搜索多媒体数据的方法包括以下几个步骤。 便携式终端使用户能够输入语音查询(610)。 便携式终端从输入语音查询中提取语音特征矢量(620)。 便携式终端将提取的语音特征矢量序列解码成候选电话序列(630)。 便携式终端通过使用候选电话序列和存储在音乐数据库中的词典参考模式来执行部分匹配操作(640)。 便携式终端通过对齐过程(650)在与经由部分匹配操作获得的候选识别列表相匹配的电话段上执行详细匹配过程。 便携式终端根据匹配程序计算匹配分数(660)。 便携式终端通过计算出的匹配分数来显示音乐信息搜索结果(670)。

    프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
    10.
    发明公开
    프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 失效
    通过测量框架的信心来识别语音的方法和装置

    公开(公告)号:KR1020060092544A

    公开(公告)日:2006-08-23

    申请号:KR1020050013521

    申请日:2005-02-18

    CPC classification number: G10L15/08 G10L15/142

    Abstract: 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치에 관한 것이다.
    본 발명의 일 실시예에 따른 프레임의 신뢰도를 측정하여 음성을 인식하는 방법은 수신한 음성 신호를 소정 길이의 프레임별로 주파수 특징을 구하는 단계, 상기 프레임에 대한 키워드 모델의 우도와 상기 프레임에 대한 필러 모델의 우도를 산출하는 단계, 상기 산출한 두 종류의 우도로 신뢰성 점수를 산출하는 단계 및 상기 신뢰성 점수로 상기 수신한 음성 신호가 핵심어 또는 비핵심어인지 판단하는 단계를 포함한다.
    음성인식, 프레임(frame), 신뢰도, 우도(likelihood), 왜도(skewness)

Patent Agency Ranking