Article No. : 56903225

작성일 : 15.06.05 | 조회수 : 339

제목 : 4-Type-Corpora-50,000-Preprocessed by UNITEX Writer : 디코라
Attached file Attached file: Corpus1-Restau-50,000.zip Corpus2-IT-50,000.zip Corpus3-Movie-50,000.zip Corpus4-Plastic-50,000.zip

4 types of Review Corpora preprocessed by UNITEX

 

- Corpus1-Restaurant Review - 50,000 token

- Corpus2-IT Review - 50,000 token

- Corpus3-Movie Review - 50,000 token

- Corpus4-Plastic Surgery Review - 50,000 token

 

위의 4개 파일은 온라인 리뷰 텍스트 중에서 다음 4가지 도메인에 대하여 작성된 글을 5만 토큰 어절로 구축하여 이를 유니텍스 내장된 DECO 사전으로 미리 처리한(즉 형태소분석 후 품사정보를 마크업한) 파일입니다.

 

각 ZIP 폴더에 대해 압축을 푼 후, 그 안에서 {XX.snt} 형식의 텍스트 문서와 {XX.snt} 형식의 폴더 파일 두 개를 끌어내어 현재 유니텍스로 작업중인 내 폴더의 corpus 폴더안에 copy합니다. 그 이후 유니텍스를 실행하여 corpus 파일(즉 {XXX.snt} 텍스트 파일)을 open하면 곧바로 사전 적용된 결과를 사용할 수 있습니다.   

  • 목록으로