Abstract:
본 발명은 인간의 DNA상에서 유전자의 발현을 조절하는 프로모터의 핵심 영역을 예측하는, 신경망 기반의 핵심 프로모터 영역의 예측방법에 대한 것이다. 본 발명은, 인간의 DNA서열을 입력받아 슬라이딩 윈도우 방식으로 DNA서열을 분석하고, 분석된 상기 DNA서열 중 일정한 길이의 윈도우 내에 포함된 DNA서열 프로모터에 분할모델을 적용하여 인접 프로모터 영역, 다운스트림 프로모터 영역, 핵심프로모터로 구분하는 DNA서열 입력/분할모델 적용단계와; 인접 프로모터 영역, 다운스트림 프로모터 영역, 핵심프로모터를 이에 해당되는 PWM(Position weight matrix)을 이용하여 특성값을 추출하는 특성값 추출단계와; 추출된 특성값들을 미리 학습해 둔 신경망에 입력하여 핵심 프로모터 여부를 판별하는 프로모터 분류단계 및 핵심 프로모터로 분류된 핵심 프로모터에서 전사시작지점(TSS)을 지정된 규칙에 따라 예측하는 전사시작지점 예측단계를 포함하는 것을 특징으로 한다. 프로모터, 핵심 프로모터, 프로모터 예측, 전사시작지점, TSS
Abstract:
본 발명은, 인간의 DNA서열을 입력받아 5'에서 3'방향으로 슬라이딩 윈도우를 이동시켜가면서 윈도우에 대해 프로모터에 대한 분할모델을 적용하여 네 개의 핵심 프로모터 요소인 INR, TATA 박스, GC 박스, CAAT 박스 및 인접 프로모터 영역, 다운스트림 프로모터 영역으로 구분하는 DNA서열 입력/분할모델 적용단계와; 각 영역별로 해당되는 PWM을 이용하여 특성값을 추출하는 특성값 추출단계와; 생성된 특성값들을 학습해 둔 신경망에 입력하여 핵심 프로모터 여부를 판별하는 프로모터 분류단계와; 예측된 핵심 프로모터에서 전사시작지점(TSS)를 지정된 규칙에 따라 예측하는 전사시작지점 예측단계;를 갖는 신경망 기반의 핵심 프로모터 영역의 예측방법을 제공한다.
Abstract:
본 발명은 도출 반박법(resolution refutation)을 이용한 정리증명 문제의 해법을 제공하는 DNA 컴퓨팅 방법에 관한 것이다. 또한, 본 발명은 DNA 컴퓨팅 방법에 사용되는 논리절을 DNA로 표현하는 방법을 제공한다. 보다 상세하게 설명하면, 본 발명의 논리절 표현 방법은 정규식 내에 포함된 논리절의 긍정적 논리구를 소정의 DNA 염기서열로 생성하고, 부정적 논리구는 긍정적 논리구에 대한 상보적인 DNA 염기서열로 나타낸다. 하나의 논리절은 하나 이상의 단일 가닥 DNA의 결합으로 표현된다. 본 발명에 의하면 논리절을 구성하는 DNA 가닥은 직쇄형 구조, 헤어핀(hairpin) 구조, 또는 가지형 구조일 수 있다. 종래의 컴퓨팅 방법이 논리곱 정규식에서 하나의 논리구를 가진 논리절과 부정적 논리구를 가진 다른 논리절로부터 하나의 도출절(resolvent)을 생성하는 과정을 반복하여 도출 반박법의 최종 결과인 빈 논리절(empty clause)의 생성을 확인해야 하는 반면, 본 발명의 DNA 컴퓨팅 방법은 소정의 염기서열과 그의 상보적인 서열을 하이브리드 형성하고 PCR 증폭을 통해 완전한 DNA 이중 가닥의 생성 여부를 확인하는 것만으로 빈 논리절(empty clause)의 생성 여부를 확인할 수 있다. 이와 같은 본 발명의 DNA 컴퓨팅 방법은 병렬의 논리절 처리 기법을 이용하여 정리증명 문제를 효과적으로 해결하는 방법을 제공한다.
Abstract:
본 발명은 양방향 은닉 마코프 모델을 이용한 완숙한 microRNA 위치예측방법 및 이를 구현하기 위한 컴퓨터 프로그램을 기록한 저장매체에 관한 것으로서, 상기 microRNA 전구체를 구성하는 염기쌍을 일치(match), 불일치(mismatch), 돌출(bulge) 중의 어느 하나의 상태정보로 표시하는 단계와; 상기 염기쌍에 대한 염기쌍 발산 심볼을 표시하는 단계와; 상태 s가 심볼 q를 발산할 확률(E s (q))과 상태 a에서 b로 전이할 확률(T ab )을 이용하여 상기 microRNA의 Viterbi 확률(P)을 계산하는 단계와; i 번째 염기쌍이 참(true)일 Viterbi 확률(P t (i))과 거짓(false)일 Viterbi 확률(P f (i))을 각각 계산하는 단계와; 상기 Viterbi 확률을 이용하여 완숙한 microRNA의 위치확률(S(i))을 계산하는 단계;를 포함하며, 상기 완숙한 microRNA의 위치확률(S(i))이 소정의 값 이상이면, 상기 위 염기쌍이 있는 위치를 성숙된 microRNA의 위치로 결정하는 것을 특징으로 한다. 본 발명에 따르면 학습시간이 짧고, 탐색시간도 훨씬 단축할 수 있으면서도 높은 효율을 나타내는 완숙한 microRNA 위치예측방법을 제공할 수 있으며, 또한 microRNA 유전자의 동정 뿐 아니라 완숙한 microRNA의 위치를 동시에 예측해서 알려 주기 때문에 훨씬 많은 정보를 제공할 수 있는 효과가 있다.
Abstract:
본 발명은 진화 알고리즘의 하나인 유전자 프로그래밍 기법을 이용하는 ncRNA (비코딩 RNA), 특히 miRNA 의 컴퓨터적 동정 방법에 관한 것으로, 더욱 구체적으로 본 발명에 따른 ncRNA, 특히 miRNA 의 컴퓨터적 동정 방법은 ncRNA, 특히 miRNA 인 것으로 공지된 포지티브 데이터 세트 및 ncRNA, 특히 miRNA 가 아닌 것으로 공지된 네거티브 데이터 세트로 이루어진 데이터 세트로부터 폴스 네거티브(false-negative) 결과를 생성하지 않는 함수 트리와 이로부터 전환된 RNA 공통구조문법을 유전자 프로그래밍(genetic programming)으로 진화적으로 학습시켜 생성된 최적의 함수 트리 또는 RNA 공통구조문법(RCSG)에, 공지되지 않은 서열을 적용하여, 상기 비공지 서열이 ncRNA, 특히 miRNA 인지의 여부를 확인하는 것을 포함함을 특징으로 한다. 또한, 본 발명에 따른 방법은 miRNA 뿐만 아니라, 일반적으로 ncRNA를 모두 예측할 수 있는 방법으로서 사용될 수 있다.
Abstract:
PURPOSE: Self-organizing latent lattice(SOLL) models for temporal gene expression profiling are provided, thereby analyzing correlation between genes through the temporal gene expression profiling of related genes each other. CONSTITUTION: The method for analysis of correlation between genes from the temporal gene expression profiling comprises the steps of: (1) projecting the high-dimensional data of y(t)=(y_{1}, y_{2}, y_{3}, y_{4}) onto the two-dimensional node xi using self-organizing map(SOM), selecting the closest point to the different input data out of the projected prototype data z as a winner, regulating the prototype data according to the winner, and improving the posterior distribution of the latent lattice using the prototype data to image the high-dimensional data on the two-dimensional plane(step E); and (2) improving the model parameter using the posterior density of the latent lattice, minimizing an error, and projecting the prototype data onto the latent area to make data from the latent lattice(step M), wherein the basis function set and lattice size is predetermined; and y_{1}=la_{t}-b_{t}l, y_{2}=l(a_{t}-a_{t-1})-(b_{t}-b_{t-1})l, y_{3}=l(a_{t+1}-a_{t})-(b_{t+1}-b_{t})l, and y_{4}=l(a_{t-1}-a_{t-2})-(b_{t-1}-b_{t-2})l when the expression value of genes A and B at time t is a_{t} and b_{t}, respectively.