Article No. : 56903386

작성일 : 15.06.05 | 조회수 : 456

제목 : Movie-Review-300,000 token-preprocessed by UNITEX 30만 어절의 영화리뷰글 유니텍스 처리결과 파일 - ZIP파일 Writer : 디코라
Attached file Attached file: Movie-300,000.zip

Movie Review Text - 300,000 tokens - preprocessed by UNITEX

 

이 ZIP의 폴더안에도 {XXX.snt}라는 텍스트파일과 {XXX.snt}라는 폴더가 있습니다. 현재의 폴더의 압축을 푼 후 여기서 이 두 파일을 끌어내어 내 문서의 작업 폴더에서 corpus 폴더 안에 copy합니다. 그 이후 유니텍스를 실행하여 {XXX.snt}라는 텍스트를 Open하면 사전적용된 결과를 볼 수 있습니다.

 

앞서 업로드된 파일들 적용과 같은 방식으로 사용하면 되며, 이 파일은 상대적으로 noise가 많이 정제되어 있으며 앞서 4가지 리뷰 텍스트들보다 그 크기가 6배 정도 되는 (30만어절) 큰 코퍼스입니다.   

  • 목록으로