Abstract:
본 발명은 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을 통해 하나의 파일을 구성하는 자료 결합 방법에 관한 것으로, 본 발명의 자료 결합 방법은 동일한 모집단에서 추출된 서로 다른 두 파일을 가지고서 첫 번째 파일의 수용파일에 있는 고유변수를 목적변수로 공통변수를 입력변수로 정한다. 그리고 두 번째 파일의 제공파일을 가지고서 고유변수를 목적변수로 공통변수를 입력변수로 정하여 나무구조를 수립하며, 수용파일의 모든 끝 노드에서 포함한 개체 수만큼 제공파일의 끝 노드 번호가 동일한 개체들을 가지고서 이중 회귀나무모형에 의한 나무구조를 다시 수립한다. 여기서 얻어진 결과에서 제공파일의 동일한 공통변수에 포함된 제공파일의 고유변수의 값을 임의의 복원추출(random sampling)에 의한 방법으로 수용파일의 고유변수 빈 영역(자료)에 포함시켜 하나의 완성된 파일로 결합하는 통계적 결합을 수행하는 것이다. 이러한 통계적 결합을 적용하면, 필요로 하는 자료 획득을 위한 시간 및 비용을 줄일 수 있고 이에 따른 경제적 효과와 효율성을 높일 수 있다. 회귀 나무, 통계, 결합, 수용, 제공, 공통, 이중, 고유, 변수, 파일
Abstract:
A file matching method for composing one file through statistical matching by using a double regression tree model in two files is provided to obtain one complete file from two different files extracted from the same population by matching two different files statistically, and reduce cost/time needed for collecting data to be obtained from two different files. Different files respectively including a common variable and a consecutive unique variable having a different value are extracted as population. The common variable is set as an input variable and the consecutive unique variable is set as a target variable in recipient and donor files of the extracted different files. The recipient file is set as training data and the donor file is set as verification data. One complete file is generated by adding the unique variable(240) included in the donor file to an empty area of the unique variable(140) assigned to the recipient file based on the common variable(120) through statistical matching by using a double regression tree model when the common variables of the different files is identical with each other.