Abstract:
The present invention relates to an apparatus for automatically learning documents and a method for automatically learning documents using the same, and an apparatus for automatically classifying documents and a method for automatically classifying documents using the same, which are capable of automatically learning and classifying mass documents on the web through a process of automatically learning and classifying documents based on n-gram. The apparatus for automatically classifying documents according to the present invention includes: a learning document pool including a plurality of learning document groups which are classified according to categories; a preprocessing unit configured to preprocess each of the learning document groups of the learning document pool; and an n-gram data set pool configured to store a set of n-gram data of the learning document pool, which is formed by being learned through the preprocessing of the preprocessing unit. Additionally, the apparatus for automatically classifying documents includes: an automatic document learning unit configured to allow the preprocessing unit to preprocess a corresponding new document to form a bigram set, when the new document occurs, which is not identified through the learning document pool; and an automatic document classifying unit configured to compare the bigram set of the new document, formed through the preprocessing unit, with a bigram set of the n-gram data set pool and to allocate and store the bigram set of the new document to one of n-gram data sets of the n-gram data set pool. [Reference numerals] (220) Automatic document classifying unit; (230) Learned n-gram data set(bigram example); (AA) Non-identified document; (BB) Appearance of a new document; (CC) Preprocessing
Abstract:
본 발명은 가상키보드를 이용하여 문자를 입력하고, 입력된 문자를 바탕으로 선정된 추천단어가 표시되며, 표시된 추천단어를 선택할 수 있는 터치스크린부와, 상기 입력된 문자를 바탕으로 비교대상이 되는 엔-그램 데이터를 추출하고 출현 빈도수가 높은 순으로 추천단어를 선정하여 터치스크린부로 출력하는 추천단어 추출부와, 상기 추천단어 추출부와 연결되어 엔-그램 데이터를 제공하고, 정제된 특정 도메인으로부터 엔-그램을 추출하여 엔-그램 데이터베이스를 구축하는 엔-그램 DB 구축부를 포함하는 것을 특징으로 하는 터치스크린 환경에서 단어 추천 및 문장 완성 시스템 및 그 방법을 제공한다. 본 발명의 터치스크린 환경에서 단어 추천 및 문장 완성 시스템 및 그 방법에 따르면, 신뢰성 높은 웹문서에서 특정 도메인만을 선정하여 구축된 엔-그램 데이터를 바탕으로 사용자가 입력하는 단어의 순번과 해당 음절에 부합하는 엔-그램 데이터를 선정하고, 출현빈도 수가 높은 단어 즉, 빈번히 사용하는 단어 순으로 추천단어를 출력하며, 사용자의 의도와 일치하는 추천단어를 선택하도록 함으로써, 최소한의 키입력으로 정확한 단어를 입력하고 문장을 쉽게 완성시킬 수 있다.
Abstract:
The present invention relates to a system for creating a social information-based album and a method thereof, capable of creating a customized album online based on social network services which are very actively used recently and social information items with diversity such as photo images, text, comments, and the like, provided through the social network services, and allowing a corresponding user to possess the album online or offline as needed. The system for creating a social information-based album according to the present invention comprises a social network service (SNS) server operating an SNS, an album creating server connected to the SNS server through a communications network, receiving social information from a database server associated with each SNS server, and editing the received social information to create an album, and a user terminal connected to the album creating server via the communications network and designating information desired to be included in the album among social information items stored in the database server of the SNS server.
Abstract:
본 발명은 엔그램 기반의 문서 자동 학습 및 분류 과정을 통해 웹상의 대용량 문서들을 자동으로 학습 및 분류할 수 있도록 하는 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법에 관한 것으로서, 본 발명에 따른 문서의 자동 분류 장치는 카테고리 별로 분류된 복수의 학습문서 그룹이 포함되는 학습문서 풀과, 상기 학습문서 풀의 각 학습문서 그룹에 대해 전처리 과정을 하는 전처리부와, 상기 전처리부의 전처리 과정을 통해 학습되어 형성된 상기 학습문서 풀의 엔그램 데이터 세트가 저장되는 엔그램 데이터 세트 풀을 포함하며, 상기 학습문서 풀을 통해 식별되지 않는 신규 문서 출현 시 상기 전처리부가 해당 신규문서를 전처리하여 바이그램 세트를 형성하는 문서 자동 학습부와, 상기 전처리부를 통해 형성되는 상기 신규문서의 바이그램 세트와 상기 엔그램 데이터 세트 풀의 바이그램 세트를 비교하여 상기 신규문서의 바이그램 세트를 상기 엔그램 데이터 세트 풀 중 어느 하나의 엔그램 데이터 세트에 할당하여 저장하는 문서 자동 분류부를 포함하여 형성된다.
Abstract:
본 발명은 번역할 단어 입력 및 추천 대역어에 관한 정보를 표시하는 디스플레이부와, 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 그 후보 단어의 빈도수와 가중치를 계산한 뒤, 기 설정된 임계값 이상인 데이터들만 선정하여 대역어 데이터베이스를 구축하는 대역어 데이터 베이스부와, 상기 디스플레이부에 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고, 상기 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어 순으로 디스플레이부에 출력하는 추천 대역어 결정부를 포함하여 구성된 것을 특징으로 하는 도메인 대역어 추천 시스템 및 그 방법을 제공한다. 본 발명의 도메인 대역어 추천 시스템 및 그 방법에 따르면, 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있다.
Abstract:
PURPOSE: A domain target word recommendation system and a method thereof are provided to minimize the error and mistake of verb and noun selection by providing the example of a target word. CONSTITUTION: A display unit (100) inputs a searching command for translating target words and target words. A target word database (DB) unit (200) extracts a target word candidate word in a specific domain massive amount document and constructs a target word DB by calculating the weighted value and the frequency of the target word candidate word. A recommended target word determination unit (300) receives a target word searching signal, extracts a recommended target word, compares the frequency of the recommended target word with the weighted value, selects the recommended target word, and outputs information related to the selected recommended target word to the display unit. [Reference numerals] (100) Display unit; (112) Word input unit; (114) Implementation button unit; (116) Output unit; (200) Target word database (DB) unit; (300) Recommended target word determination unit; (312) Candidate target word determination unit; (314) Comparing unit; (316) Recommended target word selecting unit; (320) Existing target word dictionary unit
Abstract:
PURPOSE: A word recommendation and sentence completion system in a touch screen environment and a method thereof are provided to reduce the input time of characters by reducing the occurrence of typing errors. CONSTITUTION: A touch screen unit (100) inputs characters by using virtual keyboards and displays recommended characters based on the inputted characters. A recommended word extraction unit (200) extracts engram data based on the inputted character and outputs the extracted data to the touch screen unit. An engram database (DB) construction unit constructs an engram DB (300) by extracting the engram from a specific domain by connecting to the recommended word extraction unit. [Reference numerals] (110) Text input unit; (120) Recommended word output unit; (130) Input word and a recommended word output unit; (210) Comparative N-gram output unit; (220) Recommended word selecting unit; (300) Comparative N-gram database