Abstract:
전장유전체분석을통해질병과통계적으로유의미한관계에있는단일염기다형성을우선선별후, DNA 상위치한기능부위를고려한연관유전자를맵핑하고, 단일염기다형성연관유전자의기능을다양한생물학적데이터베이스로부터수집한질병연관기능과비교해실제질병과높은연관성을가지는단일염기다형성마커를선정한다.
Abstract:
본 발명의 한 실시예에 따른 도메인 예측 장치는 도메인의 서열 정보, 아미노산 서열의 물리화학적 특징 정보 및 이차 구조 정보 중 적어도 하나를 저장하는 데이터베이스, 서열 정보, 상기 물리화학적 특징 정보 및 상기 이차 구조 정보를 이용하여 상기 서열 정보에 대한 서열 특징을 추출하는 서열 특징 추출부, 상기 서열 특징을 기계 학습하는 기계 학습부, 그리고 입력된 단백질의 서열 정보로부터 후보 서열을 추출하고, 상기 서열 특징 추출부에 의하여 추출된 상기 후보 서열의 서열 특징 및 상기 기계 학습부에서 기계 학습된 상기 도메인의 서열 특징을 이용하여 상기 후보 서열에 대응하는 도메인을 예측하는 서열 분석부를 포함한다.
Abstract:
PURPOSE: A domain prediction device, a method, and a computer-readable recording medium for recording a program for performing thereof in a computer are provided to predict a domain, based on physico-chemical properties of an amino acid sequence and a secondary structure of a protein, which is difficult to predict with a method for comparing only similarities between sequences. CONSTITUTION: A domain prediction device, a method, and a computer-readable recording medium for recording a program for performing thereof in a computer comprise the following steps: a database (100) stores sequential information of a domain, physico-chemical property information of an amino acid sequence, and secondary structure information; a sequence feature detecting part (200) extracts a sequence feature about the sequential information by using the sequential information, the physico-chemical property information, and the secondary structure information; a machine learning part (300) machine-learns a sequence feature; a sequence analysis part (400) extracts a candidate sequence from inputted protein sequential information; and the sequence analysis part predicts a domain corresponding to the candidate sequence by using a sequence feature of the domain which is machine-learned from the machine learning part. [Reference numerals] (100) Database; (110) Domain DB; (120) Physicochemical feature DB; (130) Secondary structure DB; (200) Sequence feature detecting part; (210) Physicochemical feature generating unit; (220) Secondary structure generating unit; (230) Sequence feature combination unit; (300) Machine learning part; (310) Separating unit; (320) Training unit; (330) Importance determining unit; (400) Sequence analysis part; (410) Input unit; (420) Candidate sequence extracting unit; (430) Domain prediction unit; (440) Output unit