-
公开(公告)号:KR102227939B1
公开(公告)日:2021-03-15
申请号:KR1020190038587A
申请日:2019-04-02
Applicant: 성균관대학교산학협력단
CPC classification number: G06F40/20 , G06F40/205 , G06F40/289 , G06N20/00
Abstract: 본 발명은 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 단어 임베딩 방법은, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하는 단계, 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하는 단계, 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는 단계를 포함한다.
-
公开(公告)号:KR102227939B1
公开(公告)日:2021-03-15
申请号:KR1020190038587
申请日:2019-04-02
Applicant: 성균관대학교산학협력단
Abstract: 본발명은단어의문맥정보와형태론적정보를고려한단어임베딩방법및 장치에관한것으로, 본발명의일 실시예에따른단어임베딩방법은, 학습시킬문장에서미등록단어(OOV: Out Of Vocabulary)를미지의토큰(unknown token)으로대체하여문장을가공하는단계, 상기가공된문장에서상기미등록단어를제외한타겟단어의문자(Character)를학습대상인문맥문자모델(Context Character Model)의입력으로입력하는단계, 상기문장에서타겟단어의주변단어에대한주변문맥벡터를조합하여상기문맥문자모델의초기상태로설정하는단계; 및상기문맥문자모델로부터산출된순방향은닉상태(Forward hidden state) 및역방향은닉상태(Backward hidden state)를연결하여생성된상기타겟단어의예측임베딩(Predicted embedding)과상기타겟단어의실제임베딩(Real embedding) 간의오류가최소가되도록, 상기문맥문자모델을학습하는단계를포함한다.
-