Article No. : 23532613
작성일 : 13.04.26 | 조회수 : 408
제목 : Sejong Written Corpus preprocessed by UNITEX | Writer : 디코라 |
Attached file: SejongWritten-subtotal01-150,000_snt.zip SejongWritten-subtotal01-150,000-file.zip | |
이 파일들은 유니텍스 프로그램에서 사용 가능하도록 코드 변환 후 사전 적용까지 진행된 결과 파일입니다. 이를 사용하기 위해서는 다음과 같은 방식으로 진행합니다.
1. 여기 업로드되어 있는 다음 두 파일을 다운로드 받습니다.
2. ZIP을 풀고, 유니텍스 작업을 위해 개인별로 새로 생성한 폴더(예: MyUnitex) 안의
3. 단 저장할 때, 각 파일명은 다음과 같은 형태로 되어야 합니다.(Unzip할 때 이중으로 폴더가 반복되는 경우가 있음- 이때 한단계 없애고 내부 폴더/파일을 취해야 함)
- [1] 폴더 전체로서 {XXX_snt}와 같이 마지막 단위가 "_snt"로 되어 있고 내부에 여러 개의 파일이 들어있는 폴더. - [2] 낱개 파일로서 {XXX.snt}와 같이 확장자가 "snt"로 되어 있는 파일.
4. LGG 문법을 구축하여 LocatePattern을 하기 위한 코퍼스로 사용될 준비가 끝났습니다. |
Next post | Movie Review Corpus preprocessed by UNITEX |
---|---|
Previous post | Java 설치 프로그램 zip 파일 |