융복합 연계전공

 

연구범위 및 연구 수행방법

 

location   l 교육&연구 l 연구분야

연구 주제 1

DC

확장성 있는 다형 데이터 수집/정제/저장 플랫폼 구축

 

1

본 연구과제에서 개발하고자 하는 다국어 및 다형 코퍼스 구축 및 평판 분석 시스템의 전체 구성도는 아래 그림과 같이 도식화할 수 있다. 핵심 기능으로는, 다국어 웹 데이터의 수집/정제 시스템에서 데이터를 수집하고 정제된 데이터는 SG(signal generation)에 제공되며, KL(knowledge learning)을 위한 기계 학습 엔진을 바탕으로 평판/감성 분석 시스템이 동작하며 이를 클라이언트 프로그램을 통해 감성 분석 서비스를 제공한다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

원본 및 정제 웹 데이터 저장소 : 1단계에서 기초 데이터 수집 및 정제된 데이터의 저장과 관련이 되며, 기본 데이터 수집과 정제된 데이터의 분산 저장 역할을 수행함

다형 주석 코퍼스(multi-modal tagged corpus) 저장소 : 2단계에서 평판/감성 분석된 다형 지식의 데이터 저장과 관련이 되며, 분산 환경을 고려한 확장성 있는 저장 역할을 수행함

정제/인덱싱 및 검색 : 1단계에서 정제된 데이터의 색인/검색 등과 관련이 되며, 분산 저장된 색인 방법 역할을 수행함

평판 분석 엔진 : 2단계에서 다형 지식 분석을 위해 필요한 기계 학습 기반의 평판/감성 분석 엔진과 분석된 결과의 분산 저장 역할을 수행함

User Interface API 지원 : 3단계에서 다형 지식 시스템의 통합과, 다양한 도메인 환경을 고려하여 사용자에게 필요한 기능을 수행할 수 있는 인터페이스를 제공함

Service Manager, Admin Performance Manager, Resource Manager : 3단계에서 관리 도구 개발과 관련되며, 전체 시스템의 성능 및 현재 자원 상태 및 제공되는 서비스의 상태를 감시(monitoring)하는 역할을 수행함

 

 

연구 주제 2

SG

감성 사전 및 감성주석 코퍼스 설계 및 구축

 

    평판 및 감성분석에 사용될 도메인별 코퍼스 구축을 위해 다음 과정을 거쳐 감성키워드, 문장 층위 및 토큰 층위의

    감성주석코퍼스를 구축한다.

경제산업 분야 및 관광음식 분야를 포함한 하위분야 설정 및 분야별 키워드 사전, 특히 인물, 기업, 장소, 제품 등 개체명(Named Entity) 키워드 Seed word를 구축

도메인 종속적인 일정 감성어휘에 대한 Seed word를 구축

웹에서 수집된 원시코퍼스를 정제하여 문장(sentence) 층위 감성주석코퍼스를 구축

{POSITIVE} {NEGATIVE} {NEUTRAL}의 극성을 분류

추가 세분류가 이루어지기 위해 {-2, -1, 0, +1, +2}Score 방식을 채택

코아 코퍼스에 대한 문장 층위 감성주석코퍼스 토대 구축함

토큰(token) 층위의 감성주석코퍼스 구축

코아 감성리소스의 감성 주석용 태그셋의 구축

감성 주석 코퍼스 구축을 위한 토큰활용형 처리 모듈 연구

사전 기반 반자동 감성키워드 주석코퍼스 구축 프로세싱 개발

기계학습(Machine Learning) 기반 감성 분석 엔진 개발을 위한 감성주석코퍼스로서 각 토큰별 정보 및 개체명 키워드, 감성어휘 등에 대한 개별적인 정보가 부착된 코퍼스를 구축함

감성 분석을 위해 기계학습 방법 사용 시 학습 데이터(training data) 역할 수행

 

     다음은 러시아어의 예를 들어, 감성 사전 및 감성 주석 코퍼스 구축 과정과 이를 기반으로 한 다국어 감성사전 및

     감성주석코퍼스 구축을 위한 연구개발 프로세싱 과정을 보이고 있으며, 주요 연구 내용은 다음과 같다.

코아 리소스에서 구축된 감성키워드에 대한 다국어 매핑 키워드를 구축하여 이를 기반으로 다국어 감성 리소스 구축 프로세싱을 개발함

대한민국의 평판에 대한 온라인 감성 문서들을 추출하여 이로부터 코퍼스 기반 활용형 감성사전을 개발함

기계 학습에서 사용되는 부트스트랩(bootstrap) 방식으로 확장 보완되며, 향후 토큰 단위 감성주석코퍼스를 구축하는 방법론 개발에 중요한 자원으로 활용함.

인도네시아어와 동일한 방식으로 진행하되, 1차년도는 토대 연구기간으로, 러시아 현지 작업팀 대신 국내 체류중인 러시아 원어민 연구자들과 함께 토대 연구를 수행함. 인도네시아어에 비해 작업 규모는 축소하되, 이와 같이 동일한 방식의 세 가지 결과를 획득할 수 있도록 프로세싱을 진행함

 

 

연구 주제 3

KL

Shallow 기계 학습 기반 다국어 평판/감성 분석 테스트베드 구축

 

다음 그림은 구축하고자 하는 시험용 다국어용 평판분석 시스템의 구성 및 동작을 도시한다. 단기간 내에 구축하기 위하여 Saltlux사의 지원으로 단일언어 환경에서 동작하는 Shallow 기계학습 평판분석 엔진을 채용하며 추후 개발될 다국어 평판분석 시스템의 초기 가동 시스템으로 사용한다.

 

 

 

 

 

 

 

000

 

 

 

 

 

 

 

 

 

 

 

 

시험 평판 분석 시스템의 구축을 위하여 필요한 내용은 다음과 같으며, 1단계에서 구축하는 언어 코퍼스 국가별 동일 독립 시스템을 1차년도에 제공되며 이를 기반으로 다국어 평판분석 시스템 개발을 추진한다. 통합 플랫폼 기반 다국어 평판분석 시스템을 위한 평판분석 엔진 입력 표현 체계에 대한 기초 조사 및 설계를 수행한다.