default_top_notch
default_news_top
default_news_ad1
default_nd_ad1

미디어젠, 이전 대화를 기억하는 AI 대화 모델 개발 성공

기사승인 2023.03.21  01:25:19

공유
default_news_ad2

음성 기반의 인공지능(AI) 전문 기업 미디어젠이 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 2022년 인공지능(AI) 학습용 데이터 구축 사업에서 한국어 챗봇을 고도화하기 위한 한국어 멀티세션 대화 데이터를 성공적으로 구축했다.

미디어젠이 구축한 한국어 멀티세션 대화 데이터는 채팅 기반의 텍스트 데이터로, 구축 규모는 멀티세션 8만 개, 단일 세션을 기준으로는 22만 세션, 전체 발화는 308만 발화 수준에 해당한다. 멀티세션 대화란 시간 간격을 두고 여러 번 대화를 나눈 것으로 해당 데이터에서는 시간 간격을 두고 두 번, 세 번, 또는 네 번에 나눠 대화가 진행됐다. 이렇게 여러 번 대화를 나눈 멀티세션 대화 데이터는 이전 세션의 정보를 참고해 현재 세션의 대화에 반영하는 대화 모델을 개발하는 데 활용됐다.

해당 사업의 총괄 책임자인 미디어젠 윤종성 리더는 “BlenderBot 2.0과 같은 외국 회사들의 알고리즘은 성능이 뛰어나지만, 영어로 학습이 돼 있어 한국어 성능은 기대에 미치지 못하는 상황이었다. 그러나 이번 한국어 멀티세션 대화 데이터를 구축함으로써 연속된 대화를 기억하고 대화에 반영하는 한국어 챗봇 인공지능을 성공적으로 개발할 수 있었다”고 말했다.

이전의 한국어 챗봇은 여러 번 대화하더라도 늘 단일 세션으로 대화가 종료돼 대화의 연속성이 확보되지 않았다면 이번 미디어젠이 개발한 인공지능 대화 모델은 긴 맥락 아래에서 연속된 대화를 기억하고 대화 대응에 반영함으로써 대화의 연속성을 확보할 수 있게 됐다. 즉 챗봇이 사용자와 이전 대화를 참고해 이전 대화를 현재에 반영함으로써 사용자는 챗봇이 마치 자신을 잊지 않고 기억하고 있다는 인상을 받게 될 수 있게 된다.

미디어젠에서 구축한 한국어 멀티세션 대화 데이터를 기반으로 여러 인공지능 챗봇 서비스를 구현할 수 있다. 독거노인들에게 안부를 묻고 건강 상태 체크하기, 자녀의 학교 숙제나 활동 여부를 확인하기, 사용자와의 대화를 통해 문제를 해결하거나 제품/서비스를 안내하는 기능 제공하기 등 이전 대화 내용 반영이 필요한 분야에서 다양하게 활용될 수 있을 것으로 기대된다. 또 여러 기관이 개발하고 있는 한국형 ChatGPT 개발에서도 대화 기억을 바탕으로 다양한 주제에 대한 자연스러운 대화하는 기능을 만드는 데 멀티세션 대화 데이터가 이바지할 수 있을 것으로 본다.

한편 미디어젠은 음성 및 언어 AI 전문 연구소 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 성공적으로 진행하고 있다.

박태준 기자 koteratv03@kotera.or.kr

<저작권자 © 기업정책정보신문 무단전재 및 재배포금지>
default_news_ad5
default_side_ad1
default_nd_ad2

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_side_ad4
default_nd_ad6
default_news_bottom
default_nd_ad4
default_bottom
#top
default_bottom_notch