스캐터랩, 대량의 한국어 데이터를 이용한 오픈 도메인 대화생성 모델개발 과정 공개

핑퐁빌더 로고

[비즈리포트] 이명섭 기자 = 인공지능(AI) 스타트업 스캐터랩은 대량은 한국어 데이터를 학습해 한국어 오픈 도메인 대화를 생성하는 모델의 개발 과정을 공개했다고 밝혔다.스캐터랩 AI 챗봇 개발을 담당하는 핑퐁팀은 최근 자체 운영 중인 기술 블로그에 ‘한국어로 대화하는 생성 모델의 학습을 위한 여정(Journey into Korean Dialog Generation System)’을 게시했다.

명확한 목표 문장이 있는 기능형 챗봇과 달리 영화 그녀(Her, 2013)의 AI챗봇 ‘사만다’나 영화 아이언맨(Iron Man, 2008)의 ‘자비스’와 같이 사람처럼 유연한 대화가 가능한 오픈 도메인 챗봇을 구현하는 것은 NLP(자연어 처리)업계의 큰 과제다.최근 구글, 페이스북, 바이두, 마이크로소프트 등의 기업들은 오픈 도메인 챗봇 모델에 관한 논문을 속속 발표하면서 오픈 도메인 챗봇 개발을 새로운 전기를 마련하고 있다.

글로벌 기업들의 오픈 도메인 답변 생성에 관련한최근 논문들은 대량의 학습 데이터가 답변 생성 능력에 결정적인 차이를 만들어 낸다는 결과를 보여주고 있다.이에 스캐터랩 핑퐁팀은 한국어 오픈 도메인 대화 생성 모델의 연구에 도움이 되고자 스캐터랩이 보유 중인 대량의 한국어 데이터를 활용한 연구를 진행했다.

이번 연구에서 스캐터랩은 자체 보유하고 있는 350GB의 한국어 대화 데이터를 학습 데이터로 활용했다.이는 해외 연구 논문에 사용된 대량의 데이터셋과 비슷한 수준의 한국어 대화 데이터이다.또한 일상 대화 데이터에서 학습할 수 있는 단순 답변 능력뿐만 아니라,다양한 지식과 상식을 학습할 수 있도록 ‘위키피디아’와 ‘나무위키’ 데이터를 활용했다.

스캐터랩의 기술 블로그(https://blog.pingpong.us/)에방문하면 학습 데이터의 전처리 과정과 스캐터랩이 학습 모델로 활용한 ‘Encoder-Decoder’ 구조 (Meena형 구조)와 ‘Decoder Only’ 구조(GPT형 구조) 그리고 디코딩 과정에서 결정론적 방법과 확률론적 방법을 활용해 답변을 얻어낸 결과를 확인할 수 있다.스캐터랩은 이번 연구를 통해 개발한한국어 답변 생성 모델을 데모로 공개할 예정이다.또한 이후 스캐터랩이 서비스하고 있는 ‘이루다’에 적용할 예정이다.

스캐터랩 김종윤 대표는 “스캐터랩이 보유하고 있는 대량의 한국어 데이터를 통해 처음 시도해본 프로젝트에서 좋은 결과를 얻게 된 것 같다”라며 “같은 연구를 진행 중인 기업들에게 우리의 실험이 조금이나마 도움이 되었으면 좋겠다”라고 말했다

bizreport

Read Previous

배링랩 기계번역 올림픽에서 1위…어떤 점 다른가 살펴보니

Read Next

정치 분야도 스타트업이 있다고? 옥소폴리틱스 어떤 기업일까

Leave a Reply

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다