미디어젠, 이전 대화를 기억하는 AI 대화 모델 개발 성공

기사승인 2023.03.21 01:25:19

default_news_ad2

음성 기반의 인공지능(AI) 전문 기업 미디어젠이 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 2022년 인공지능(AI) 학습용 데이터 구축 사업에서 한국어 챗봇을 고도화하기 위한 한국어 멀티세션 대화 데이터를 성공적으로 구축했다.

미디어젠이 구축한 한국어 멀티세션 대화 데이터는 채팅 기반의 텍스트 데이터로, 구축 규모는 멀티세션 8만 개, 단일 세션을 기준으로는 22만 세션, 전체 발화는 308만 발화 수준에 해당한다. 멀티세션 대화란 시간 간격을 두고 여러 번 대화를 나눈 것으로 해당 데이터에서는 시간 간격을 두고 두 번, 세 번, 또는 네 번에 나눠 대화가 진행됐다. 이렇게 여러 번 대화를 나눈 멀티세션 대화 데이터는 이전 세션의 정보를 참고해 현재 세션의 대화에 반영하는 대화 모델을 개발하는 데 활용됐다.

해당 사업의 총괄 책임자인 미디어젠 윤종성 리더는 “BlenderBot 2.0과 같은 외국 회사들의 알고리즘은 성능이 뛰어나지만, 영어로 학습이 돼 있어 한국어 성능은 기대에 미치지 못하는 상황이었다. 그러나 이번 한국어 멀티세션 대화 데이터를 구축함으로써 연속된 대화를 기억하고 대화에 반영하는 한국어 챗봇 인공지능을 성공적으로 개발할 수 있었다”고 말했다.

이전의 한국어 챗봇은 여러 번 대화하더라도 늘 단일 세션으로 대화가 종료돼 대화의 연속성이 확보되지 않았다면 이번 미디어젠이 개발한 인공지능 대화 모델은 긴 맥락 아래에서 연속된 대화를 기억하고 대화 대응에 반영함으로써 대화의 연속성을 확보할 수 있게 됐다. 즉 챗봇이 사용자와 이전 대화를 참고해 이전 대화를 현재에 반영함으로써 사용자는 챗봇이 마치 자신을 잊지 않고 기억하고 있다는 인상을 받게 될 수 있게 된다.

미디어젠에서 구축한 한국어 멀티세션 대화 데이터를 기반으로 여러 인공지능 챗봇 서비스를 구현할 수 있다. 독거노인들에게 안부를 묻고 건강 상태 체크하기, 자녀의 학교 숙제나 활동 여부를 확인하기, 사용자와의 대화를 통해 문제를 해결하거나 제품/서비스를 안내하는 기능 제공하기 등 이전 대화 내용 반영이 필요한 분야에서 다양하게 활용될 수 있을 것으로 기대된다. 또 여러 기관이 개발하고 있는 한국형 ChatGPT 개발에서도 대화 기억을 바탕으로 다양한 주제에 대한 자연스러운 대화하는 기능을 만드는 데 멀티세션 대화 데이터가 이바지할 수 있을 것으로 본다.

한편 미디어젠은 음성 및 언어 AI 전문 연구소 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 성공적으로 진행하고 있다.

박태준 기자 koteratv03@kotera.or.kr

default_news_ad5

미디어젠, 이전 대화를 기억하는 AI 대화 모델 개발 성공

인기기사

포토

[Tip] [스스로 해결하기 #6] 기업R&D지도사가 되면 기대할 수 있는 기막힌~!! 3대 효과를 정리해 보았습니다.

[Tip] [스스로 해결하기 #5] 기업의 산업재산권확보, 이 3가지 방법만 알면 누구나 쉽게 기업 스스로 할 수 있습니다.

[Tip] [스스로 해결하기 #4] 기업신용대출, 이 3가지만 알면 누구나 쉽게 기업 스스로 할 수 있습니다.

휴대용 캠핑공간 '트럭캠퍼'를 만드는 '하이엔드캠핑카' 탐방

청소년 트로트 가요제, 줌바 페스티벌, 야시장 개최

한국기술개발협회, 제105기 기업R&D지도사 자격 획득을 위한 단기 양성 교육연수 지원사업 공고

섹션별 인기기사 및 최근기사