Abstract:
본 발명은 대용량 XML 데이터에 대한 다수의 가지 패턴 질의의 동시 병렬처리시스템 및 그 방법에 관한 것이다. 본 발명에서는, 사용자들로부터 가지 패턴 질의들을 및 대용량 XML 파일 입력 받기 위한 입력부와; 상기 입력부에 입력된 가지 패턴 질의들을 선형 경로 패턴들을 이용하여 질의 인덱스를 생성하고, 상기 대용량 XML 파일로부터 다수의 XML 데이터 블록들을 생성하여 분산 파일 시스템에 적재시키기 위한 전처리 및 데이터 적재부와; 상기 XML 데이터 블록들을 입력 받아 선형경로 패턴들에 대한 해답을 얻고, 상기 선형경로 패턴들에 대한 해답의 크기를 계산하기 위한 제1 맵리듀스 작업부와; 선형 경로 패턴들의 해답들을 가지고 가지 패턴 조인 연산을 수행하여 최종 결과를 출력시키기 위한 제2 맵리듀스 작업부;를 포함하는 대용량 XML 데이터에 대한 다수의 가지 패턴 질의의 동시 병렬처리시스템 및 그 방법이 제시된다.
Abstract:
The present invention relates to a system for processing multiple twig pattern queries on massive XML data simultaneously and parallelly and a method thereof. The system includes: an input unit which receives, from users, an input of twig pattern queries and a massive XML file; a pre-processing and data loading unit which divides the twig pattern queries inputted through the input unit into linear path patterns, creates a query index using the linear path patterns, creates multiple XML data blocks from the massive XML file, and loads the created XML data blocks to a distributed file system; a first map-reduce work unit which receives the XML data blocks to obtain answers to the linear path patterns, and calculates the size of the answers to the linear path patterns; and a second map-reduce work unit which performs twig pattern join operations using the answers to the linear path patterns to output the final results.