-
公开(公告)号:KR102244967B1
公开(公告)日:2021-04-27
申请号:KR1020190068439
申请日:2019-06-11
Applicant: 서강대학교산학협력단
Abstract: 본발명의실시예에따른음성인식학습장치는영상입력부, 영상처리부및 컨볼루션뉴럴네트워크를포함할수 있다. 영상입력부는입력영상을수신할수 있다. 영상처리부는미리정해진제1 시간간격동안의입력영상에포함되는입술영상및 입술의정해진위치에상응하는랜드마크의주변영상에해당하는패치영상을각각 N(N은자연수)개의프레임들로나눌수 있다. 컨볼루션뉴럴네트워크는입술영상을 N개의프레임들로나눈프레임입술영상및 패치영상을 N개의프레임들로나눈프레임패치영상에기초하여입술의모양에상응하는음성정보를학습할수 있다. 본발명에따른음성인식장치에서는화자의입술영상뿐만아니라, 입술의정해진위치에배치되는랜드마크의주변영상인패치영상을이용하여컨볼루션뉴럴네트워크(Convolution Neural Network, CNN)를학습시킴으로써음성인식성능을향상시킬수 있다.