Un detector de voz y un método para suprimir sub-bandas en un detector de voz

    公开(公告)号:ES2525427T3

    公开(公告)日:2014-12-22

    申请号:ES07709334

    申请日:2007-02-09

    Inventor: SEHLSTEDT MARTIN

    Abstract: Un detector de voz (30; 51; 61) que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda (n) de frecuencias, donde dicho detector de voz comprende: - un primer puerto de entrada configurado para recibir dichas sub-señales, - un segundo puerto de entrada configurado para recibir una sub-señal de fondo basada en dichas sub-señales y - medios para calcular (20), para cada sub-banda, un valor SNR (snr[n]) basado en la correspondiente sub-señal y en la sub-señal de fondo; caracterizado porque dicho detector de voz (30; 51; 61) comprende además: - medios para calcular (31n, 21) un valor de SNR de potencia para cada sub-banda, donde al menos uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal - medios para formar (22) un valor único (snr_sum) basado en los valores de potencia calculados, y - medios para comparar (23) dicho valor único (snr_sum) con un valor umbral dado (vad_thr) para tomar una decisión de actividad de voz (vad_prim) presentado en un puerto de salida.

    METHOD AND VOICE ACTIVITY DETECTOR FOR A SPEECH ENCODER

    公开(公告)号:CA2778343A1

    公开(公告)日:2011-04-28

    申请号:CA2778343

    申请日:2010-10-18

    Inventor: SEHLSTEDT MARTIN

    Abstract: The embodiments of the present invention relates to a primary voice activity detector and a method thereof. By using the method of the embodiments it is possible to determine whether frames of an input signal comprise voice. That is achieved by receiving a frame of the input signal, determining a first SNR of the received frame, comparing the determined first SNR with an adaptive threshold, and detecting whether the received frame comprises voice based on said comparison. The adaptive threshold is at least based on total noise energy of a noise level, an estimate of a second SNR and on energy variation between different frames.

    СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ

    公开(公告)号:RU2768508C2

    公开(公告)日:2022-03-24

    申请号:RU2018135681

    申请日:2018-10-10

    Inventor: SEHLSTEDT MARTIN

    Abstract: Изобретениеотноситсяк областивычислительнойтехникидляобработкиаудиоданных. Техническийрезультатзаключаетсяв исключенииартефактоввоспроизведенияаудиоданныхс отсечениемконцовпоследнихречевыхсегментов, такихкакречевойфрагмент, заканчивающийсянеречевымвзрывом. Техническийрезультатдостигаетсязасчетопределенияпервичногорешенияобнаруженияголосовойактивности (VAD) наоснованииголосовойактивности; определенияокончательногорешения VAD наоснованиитого, выполняетсялидобавлениехвостовсигналапервичногорешения; определениямерыкраткосрочнойголосовойактивностинаоснованиипрошлыхпервичныхрешений; определениямерыдолгосрочнойголосовойактивностинаоснованиипрошлыхокончательныхрешенийилипрошлыхпервичныхрешений; иопределенияальтернативногоокончательногорешениядлярегулированиядобавленияхвостовсигналанаоснованиимерыкраткосрочнойголосовойактивностии мерыдолгосрочнойголосовойактивности. 3 н. и 11 з.п. ф-лы, 9 ил.

    ОЦЕНИВАНИЕ ФОНОВОГО ШУМА В АУДИОСИГНАЛАХ

    公开(公告)号:RU2760346C2

    公开(公告)日:2021-11-24

    申请号:RU2020100879

    申请日:2020-01-14

    Inventor: SEHLSTEDT MARTIN

    Abstract: Изобретениеотноситсяк областивычислительнойтехникидляобработкиаудиосигналов. Техническийрезультатзаключаетсяв повышенииточностиоцениванияфоновогошумав аудиосигналах. Техническийрезультатдостигаетсязасчетпервогокоэффициентаусилениялинейногопредсказания, вычисленногокаксоотношениемеждуэнергиейостаточногосигналаизпервоголинейногопредсказанияи энергиейостаточногосигналаизвтороголинейногопредсказаниядлясегментааудиосигнала, причемвтороелинейноепредсказаниепроисходитизболеевысокогопорядка, чемпервоелинейноепредсказание; ивторогокоэффициентаусилениялинейногопредсказания, вычисленногокаксоотношениемеждуэнергиейостаточногосигналаизвтороголинейногопредсказанияи энергиейостаточногосигналаизтретьеголинейногопредсказаниядлясегментааудиосигнала, причемтретьелинейноепредсказаниепроисходитизболеевысокогопорядка, чемвтороелинейноепредсказание; определения, содержитлисегментаудиосигналапаузу, наоснове, поменьшеймере, упомянутогопоменьшеймереодногопараметра; иеслиопределено, чтосегментаудиосигналасодержитпаузу, обновленияоценкифоновогошуманаосновесегментааудиосигнала. 4 н. и 10 з.п. ф-лы, 24 ил.

    Estimación de la forma espectral a partir de coeficientes de mdct

    公开(公告)号:CO2021012223A2

    公开(公告)日:2021-09-30

    申请号:CO2021012223

    申请日:2021-09-17

    Abstract: Se proporciona un método, decodificador y código de programa para controlar un método de ocultación de una trama de audio perdida. Una primera trama de audio y una segunda trama de audio de la señal de audio recibida se decodifican para obtener coeficientes de transformada de coseno discreta modificada. Se determinan los valores de una primera forma espectral basándose en los coeficientes de MDCT decodificados de la primera trama de audio decodificada y valores de una segunda forma espectral basándose en los coeficientes de MDCT decodificados a partir de la segunda trama de audio decodificada, comprendiendo cada una de las formas espectrales varias sub-bandas. Los valores de las formas espectrales y energías de trama de la primera trama de audio y la segunda trama de audio se transforman en representaciones de análisis espectrales basados en FFT. Se detecta una condición de transitorio en función de las representaciones de las FFT. En respuesta a detectar la condición de transitorio, el método de ocultación se modifica ajustando selectivamente una magnitud de espectro de un espectro de trama de sustitución.

    Estimation of background noise in audio signals

    公开(公告)号:NZ743390A

    公开(公告)日:2021-03-26

    申请号:NZ74339015

    申请日:2015-07-01

    Inventor: SEHLSTEDT MARTIN

    Abstract: The invention relates to a background noise estimator and a method therein, for estimation of background noise in an audio signal. The method comprises computing at least one parameter associated with an audio signal segment that is among the audio signal segments, based on both of: a first linear prediction gain calculated as a quotient between an energy of the input signal and a residual signal energy from a first linear prediction for the audio signal segment; and a second linear prediction gain calculated as a quotient between the residual signal energy from the first linear prediction and a residual signal energy from a second linear prediction for the audio signal segment. The method further comprises determining whether the audio signal segment comprises a pause based at least on the obtained at least one parameter; and, updating a background noise estimate based on the audio signal segment when the audio signal segment comprises a pause.

    Estimación del ruido de fondo en las señales de audio

    公开(公告)号:ES2758517T3

    公开(公告)日:2020-05-05

    申请号:ES17202308

    申请日:2015-07-01

    Inventor: SEHLSTEDT MARTIN

    Abstract: Un método para estimar el ruido de fondo en una señal de audio, comprendiendo, el método: a) obtener (201) al menos un parámetro asociado con un segmento de señal de audio de entrada en base a: - una primera ganancia de predicción lineal calculada como cociente entre una energía de la señal de entrada y una energía de señal residual de una primera predicción lineal para el segmento de señal de audio; y - una segunda ganancia de predicción lineal calculada como el cociente entre la energía de señal residual de la primera predicción lineal y una energía de señal residual de una segunda predicción lineal para el segmento de señal de audio; b) determinar (202) si el segmento de señal de audio comprende una pausa libre de voz y música, en base al menos en el al menos un parámetro; y: si se determina que el segmento de señal de audio comprende una pausa: - actualizar (203) una estimación de ruido de fondo en base al segmento de señal de audio.

    Métodos y aparatos para retención DTX en codificación de audio

    公开(公告)号:ES2748144T3

    公开(公告)日:2020-03-13

    申请号:ES16173655

    申请日:2013-12-12

    Abstract: Un método realizado por un codificador, el codificador funcionando para codificar la conversación y aplicar un esquema de transmisión discontinua, DTX, que comprende la transmisión de las tramas de descriptor de inserción de silencio, SID, durante la inactividad de conversación, comprendiendo el método: - determinar (703a) un número N de tramas de retención, en el que el número N de tramas de retención es variable; - transmitir (704a) las N tramas de retención a un decodificador; - transmitir (705a) una primera trama SID al decodificador después de un período de retención, donde la primera trama SID comprende información que indica el número determinado N de tramas de retención, permitiendo así que el decodificador genere ruido de confort basándose en las N tramas de retención.

Patent Agency Ranking