-
11.
公开(公告)号:JP2010211221A
公开(公告)日:2010-09-24
申请号:JP2010096043
申请日:2010-04-19
Applicant: Qualcomm Inc , クゥアルコム・インコーポレイテッドQualcomm Incorporated
Inventor: MALAYATH NARENDRANATH , DEJACO ANDREW P , CHANG CHIENCHUNG , JALIL SUHAIL , BI NING , GARUDADRI HARINATH
CPC classification number: G10L15/142 , G10L15/07 , G10L15/10 , G10L15/12 , G10L15/144 , G10L15/32
Abstract: PROBLEM TO BE SOLVED: To provide a voice recognition method which excellently functions even before and during creation of a speaker dependent (SD) acoustic model which is dependent on a speaker, and which is adapted to unsupervised training.
SOLUTION: A voice recognition system utilizes a combination of speaker at least one independent (SI) acoustic model 230 or 232, and at least one speaker dependent (SD) acoustic model 234 to provide a level of speech recognition performance that at least equals that of a purely SI acoustic model 230 or 232. The system continually uses unsupervised training to update acoustic templates in the one or more acoustic models. The system then uses the updated SD acoustic models 234 in combination with the at least one SI acoustic model 230 or 232 to provide improved voice recognition performance during voice recognition testing.
COPYRIGHT: (C)2010,JPO&INPITAbstract translation: 要解决的问题:提供一种语音识别方法,其在依赖于说话者的扬声器依赖(SD)声学模型的创建之前和期间都能很好地起作用,并且适用于无监督的训练。 解决方案:语音识别系统利用扬声器至少一个独立(SI)声学模型230或232以及至少一个扬声器依赖(SD)声学模型234的组合来提供至少等级的语音识别性能 等于纯SI声学模型230或232.该系统连续地使用无监督训练来更新一个或多个声学模型中的声学模板。 然后,系统使用更新的SD声学模型234与至少一个SI声学模型230或232组合,以在语音识别测试期间提供改进的语音识别性能。 版权所有(C)2010,JPO&INPIT
-
公开(公告)号:CA2566125C
公开(公告)日:2012-01-24
申请号:CA2566125
申请日:2005-05-13
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , SAGETONG PHOOM , HSU RAYMOND T-S
IPC: H04L29/06 , H04B7/00 , H04B7/216 , H04L12/28 , H04L12/56 , H04L12/66 , H04N7/26 , H04W28/06 , H04W72/12 , H04W84/04 , H04W88/18
Abstract: Methods and apparatus are described for improving the transmission of multimedia data over wireless communication channels. These techniques include determining a physical layer packet size of the wireless communication system and determining a maximum size of a compressed header. Then, partitioning an information unit, wherein the size of the partitions are selected such that after a partition is encoded the aggregate size of the encoded partition and the compressed header are the size of the physical layer packet, or less. The techniques can be used for various types of information units, such as multimedia data, variable bit rate data streams, video streams, video teleconference stream, or voice over IP. The techniques can also be used with various over the air interfaces, such as, Global System for Mobile Communication (GSM), General Packet Radio Service (GPRS), Enhanced Data GSM Environment (EDGE), or standards based on CDMA such as TIA/EIA-95-B (IS-95), TIA/EIA-98-C (IS-98), IS2000, HRDP, cdma2000, Wideband CDMA (WCDMA), and others.
-
公开(公告)号:ES2330857T3
公开(公告)日:2009-12-16
申请号:ES05025989
申请日:2002-03-22
Applicant: QUALCOMM INC
Inventor: MALAYATH NARENDRANATH , DEJACO ANDREW P , CHANG CHIENCHUNG , JALIL SUHAIL , NING BI , GARUDADRI HARINATH
Abstract: Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende: la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida; la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada; la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida; si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.
-
14.
公开(公告)号:ES2318495T3
公开(公告)日:2009-05-01
申请号:ES05749459
申请日:2005-05-13
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , SAGETONG PHOOM , NANDA SANJIV
IPC: H04L12/28 , H04B7/00 , H04B7/216 , H04L12/56 , H04L12/66 , H04L29/06 , H04N7/26 , H04W28/06 , H04W72/12 , H04W84/04 , H04W88/18
Abstract: Un procedimiento para transmitir información sobre un sistema de comunicaciones inalámbrico (100), comprendiendo el procedimiento: determinar un número de transmisiones en los canales de comunicaciones disponibles que ocurren durante un intervalo de una unidad de información (1602); caracterizado por determinar posibles tamaños de paquete de datos de capa física de los canales disponibles (1604); y particionar la unidad de información (502) en rodajas (508), en la que el número de rodajas es igual o menor que el número de transmisiones durante el intervalo de la unidad de información, y el tamaño de las rodajas se selecciona de forma que no sobrepase uno de los tamaños de paquete de datos de capa física de los canales de comunicaciones disponibles (1604).
-
公开(公告)号:DE602005011611D1
公开(公告)日:2009-01-22
申请号:DE602005011611
申请日:2005-05-13
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , SAGETONG PHOOM , NANDA SANJIV
IPC: H04L12/28 , H04B7/00 , H04B7/216 , H04L12/56 , H04L12/66 , H04L29/06 , H04N7/26 , H04W28/06 , H04W72/12 , H04W84/04 , H04W88/18
Abstract: Methods and apparatus are described for transmitting information units over a plurality of constant bit rate communication channel. The techniques include encoding the information units, thereby creating a plurality of data packets. The encoding is constrained such that the data packet sizes match physical layer packet sizes of the communication channel. The information units may include a variable bit rate data stream, multimedia data, video data, and audio data. The communication channels include CMDA channels, WCDMA, GSM channels, GPRS channels, and EDGE channels.
-
公开(公告)号:BRPI0510953A
公开(公告)日:2007-11-20
申请号:BRPI0510953
申请日:2005-05-13
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , SAGETONG PHOOM , NANDA SANJIV
IPC: H04N7/52 , H04B7/00 , H04B7/216 , H04L12/28 , H04L12/56 , H04L12/66 , H04L29/06 , H04N7/26 , H04W28/06 , H04W72/12 , H04W84/04 , H04W88/18
Abstract: Methods and apparatus are described for transmitting information units over a plurality of constant bit rate communication channel. The techniques include encoding the information units, thereby creating a plurality of data packets. The encoding is constrained such that the data packet sizes match physical layer packet sizes of the communication channel. The information units may include a variable bit rate data stream, multimedia data, video data, and audio data. The communication channels include CMDA channels, WCDMA, GSM channels, GPRS channels, and EDGE channels.
-
17.
公开(公告)号:ES2278763T3
公开(公告)日:2007-08-16
申请号:ES01953554
申请日:2001-07-17
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , OSES DAVID PUIG , BI NING , QI YINGYONG
Abstract: Un sistema de reconocimiento de voz (100), que comprende: - un procesador acústico (104) configurado para extraer unos parámetros de voz a partir de unas muestras de voz digitalizadas de una expresión de voz; - una pluralidad de motores de reconocimiento de voz (106, 108, 110) acoplados al procesador acústico (104), estando cada motor de reconocimiento de voz configurado para producir una hipótesis; y Una lógica de toma de decisiones que comprende: - unos medios para extraer unos parámetros de voz con un procesador acústico (104) a partir de unas muestras de voz digitalizadas de una expresión de voz; - unos medios para acoplar una pluralidad de motores de reconocimiento de voz al procesador acústico (104); y - unos medios para producir una pluralidad de hipótesis desde cada motor de reconocimiento de voz; - unos medios para comparar la hipótesis más verosímil del primer motor de reconocimiento de voz con la segunda hipótesis más verosímil del primer motor de reconocimiento de voz para formar una primera diferencia, delta 1; - unos medios para comparar la hipótesis más verosímil del segundo motor de reconocimiento de voz con la segunda hipótesis más verosímil del segundo motor de reconocimiento de voz para formar una segunda diferencia, delta 2; - unos medios para añadir delta 1 y delta 2 para formar una suma delta; y - unos medios para aceptar la hipótesis más verosímil del primer motor de reconocimiento de voz si la hipótesis más verosímil del primer motor de reconocimiento de voz es igual que la hipótesis más verosímil del segundo motor de reconocimiento de voz y la suma delta es mayor que un primer umbral predeterminado.
-
公开(公告)号:DE60125542D1
公开(公告)日:2007-02-08
申请号:DE60125542
申请日:2001-07-17
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , OSES PUIG , BI NING , QI YINGYONG
-
公开(公告)号:AT349751T
公开(公告)日:2007-01-15
申请号:AT01953554
申请日:2001-07-17
Applicant: QUALCOMM INC
Inventor: GARUDADRI HARINATH , OSES DAVID PUIG , BI NING , QI YINGYONG
-
公开(公告)号:DE60014583D1
公开(公告)日:2004-11-11
申请号:DE60014583
申请日:2000-02-04
Applicant: QUALCOMM INC
Inventor: DEJACO P , WALTERS P , GARUDADRI HARINATH
Abstract: An apparatus for testing user interface integrity of speech-enabled devices includes a processor and a storage medium coupled to the processor. A set of voiced utterances is stored in the storage medium. A software module is executed by the processor to determine a state of the voice recognizer and provide a response to the voice recognizer in accordance with the determined state. The response may be to produce at least one voiced utterance in accordance with the state. The apparatus may be acoustically coupled to the voice recognizer. The apparatus may also, or in the alternative, be electrically coupled by a cable to the voice recognizer. The set of voiced utterances may include multiple sets of voiced utterances, each set having been spoken by a different person. The set of voiced utterances may also, or in the alternative, include multiple sets of voiced utterances, each set of voiced utterances having been spoken under different background noise conditions. The software module may also be executable to monitor the performance of the voice recognizer.
-
-
-
-
-
-
-
-
-