디지털 개인 비서(digital personal assistant)는 스마트폰과 인공지능 기술의 발전과 함께 현대 정보기술 환경에서 중요한 사용자 인터페이스로 자리 잡았다. 애플의 시리(Siri), 구글 어시스턴트(Google Assistant), 아마존 알렛사(Alexa), 마이크로소프트 코타나(Cortana)와 같은 서비스는 음성 인식과 자연어 처리 기술을 활용해 사용자의 명령을 이해하고 다양한 작업을 수행한다.

초기의 디지털 개인 비서는 주로 정보 검색이나 간단한 작업 수행에 초점을 맞췄다. 예를 들어, 날씨를 확인하거나 일정 알림을 등록하고, 전화나 메시지를 보내는 기능이 대표적이었다. 그러나 시간이 지나면서 사용자 경험을 향상시키기 위해 단순한 기능 수행을 넘어 보다 인간적인 상호작용을 구현하려는 시도가 등장했다.

사용자들은 종종 디지털 비서에게 단순한 작업 지시가 아니라 일종의 대화나 농담을 기대하며 질문을 던지기도 한다. “너는 몇 살이야?”, “나랑 결혼할래?”, “농담 하나 해줘”와 같은 질문은 정보 획득 목적보다는 시스템의 성격을 시험하거나 재미있는 반응을 기대하는 경우가 많다. 이러한 상황에서 디지털 비서가 단순하고 반복적인 텍스트 응답만 제공한다면 사용자 경험은 쉽게 단조로워질 수 있다.

이와 같은 문제를 해결하기 위한 기술적 접근으로 제시된 것이 마이크로소프트(Microsoft)가 출원해 등록한 특허 US9514748B2다. 이 특허는 디지털 개인 비서가 사용자의 질문 가운데 이른바 ‘잡담(chit-chat)’ 유형의 발화를 인식하고, 이에 대해 멀티미디어 요소와 음성 표현을 활용한 풍부한 응답을 제공하는 시스템과 방법을 설명한다.

즉 단순한 텍스트 기반 응답이 아니라 이미지, 영상, 음성, 애니메이션 등 다양한 콘텐츠를 활용해 사용자와의 상호작용을 보다 흥미롭고 인간적으로 만드는 기술이다. 특히 유명 영화나 음악, 인터넷 밈 등 대중문화(pop culture) 요소를 활용한 응답을 통해 사용자에게 친숙하고 재미있는 경험을 제공하는 것이 이 특허의 핵심 개념이다.

특허에서 제시된 시스템 구조는 크게 사용자 단말, 디지털 개인 비서 백엔드, 그리고 네트워크로 구성된다. 사용자 단말은 스마트폰, 태블릿, 노트북과 같은 장치로서 디지털 개인 비서 애플리케이션이 실행되는 환경을 제공한다. 사용자는 마이크를 통해 음성 명령이나 질문을 입력하고, 시스템은 이를 분석해 적절한 응답을 생성한다. 단말 장치는 사용자 인터페이스를 제공하고 멀티미디어 콘텐츠를 표시하거나 음성을 출력하는 역할을 수행한다.

백엔드 시스템에는 음성 인식 서비스와 질의 이해 및 응답 생성 시스템이 포함된다. 음성 인식 서비스는 사용자의 음성을 텍스트로 변환하며, 이후 자연어 처리 기술을 이용한 질의 이해 시스템이 해당 문장을 분석해 사용자의 의도를 파악한다.

질의 처리 과정은 단계적으로 이루어진다. 먼저 사용자의 음성이 입력되면 시스템은 이를 디지털 신호로 변환하고 음성 인식 서비스를 통해 텍스트로 바꾼다. 이후 자연어 처리 기술을 활용해 문장의 의미를 분석한다. 이 과정에서 시스템은 사용자의 발화가 특정 기능 수행을 요구하는 명령인지, 단순한 정보 검색 질문인지, 혹은 잡담형 질문인지 판단한다.

예를 들어 “전화 걸어줘”와 같은 명확한 작업 요청이라면 해당 기능을 실행한다. 반면 발화가 잡담형 질문으로 판단되면 별도의 응답 생성 로직이 작동한다.

잡담형 발화란 사용자가 기능 수행을 요구하기보다는 대화를 시도하거나 재미있는 반응을 기대하는 질문을 의미한다. 예를 들어 “너는 몇 살이야?”, “나랑 결혼할래?”, “인생의 의미는 뭐야?”와 같은 질문이 이에 해당한다. 특허에서는 이러한 질문을 인식하기 위해 단어 분석, 대화 문맥, 발화 억양, 과거 대화 기록 등 다양한 요소를 활용할 수 있다고 설명한다.

잡담형 발화가 인식되면 시스템은 여러 개의 응답 후보 가운데 하나를 선택한다. 동일한 질문에 항상 같은 응답을 제공하면 사용자 경험이 단조로워질 수 있기 때문에 다양한 응답을 준비하고 상황에 따라 선택하는 방식을 제안한다. 예를 들어 “농담 하나 해줘”라는 질문에는 여러 농담 중 하나를 무작위로 선택해 제공할 수 있다.

특허에서는 응답 선택을 위해 계층적 발화 트리(hierarchical tree) 구조를 활용하는 방법도 제시한다. 이 구조에서는 ‘잡담’이라는 상위 카테고리 아래에 다양한 하위 카테고리가 존재한다. 예를 들어 주장(assertion), 명령(command), 농담(flirt), 시스템 정보 질문(system info), 시스템 의견 질문(system opinion) 등의 유형이 포함될 수 있다. 시스템은 사용자의 발화를 분석해 해당 트리에서 가장 적절한 노드를 선택하고, 그 노드에 연결된 응답 가운데 하나를 제공한다.

또한 특허는 트렌딩 주제(trending topic)를 활용한 응답 생성 방식도 제안한다. 특정 시점에 사회적으로 화제가 되는 영화, 뉴스, 인터넷 밈 등을 시스템이 인식하고, 관련 질문이 들어올 경우 그에 맞는 응답을 제공하는 방식이다.

예를 들어 특정 영화가 큰 인기를 끌고 있다면 디지털 비서는 해당 영화의 대사나 이미지를 활용해 응답할 수 있다. 이러한 방식은 디지털 비서가 시대적 흐름을 반영하는 것처럼 보이게 하여 사용자에게 더욱 친숙한 경험을 제공한다.

이 특허의 가장 중요한 특징은 응답에 멀티미디어 요소를 포함한다는 점이다. 기존 디지털 비서는 텍스트나 단순 음성 응답이 중심이었지만, 이 기술은 이미지, 동영상, 음성 모사, 애니메이션 등 다양한 콘텐츠를 결합해 응답을 구성한다.

예를 들어 사용자가 시험에 대한 걱정을 이야기하면 디지털 비서는 영화 스타워즈의 유명 대사인 “May the force be with you”를 표시하고 광선검 애니메이션을 보여줄 수 있다. 또 다른 예로 사용자가 “은행을 어떻게 털 수 있지?”라고 질문하면 영화 보니와 클라이드 포스터를 보여주면서 범죄의 위험성을 간접적으로 전달할 수도 있다.

특허에서는 음성 모사(voice impersonation) 기술도 중요한 요소로 설명한다. 디지털 비서는 특정 영화 캐릭터나 유명 인물의 목소리를 흉내 내어 응답할 수 있다. 이는 실제 녹음된 음성을 재생하거나 텍스트 음성 변환 기술을 활용해 특정 음색을 모방하는 방식으로 구현될 수 있다.

응답에는 이미지나 영상뿐 아니라 외부 콘텐츠로 연결되는 링크가 포함될 수도 있다. 이를 통해 디지털 비서는 단순한 정보 도구를 넘어 콘텐츠 플랫폼으로 활용될 가능성을 보여준다.

이 특허의 기술적 의의는 여러 측면에서 평가할 수 있다. 첫째, 디지털 개인 비서의 사용자 경험을 크게 향상시킨다. 둘째, 텍스트·음성·이미지·영상이 결합된 멀티모달 인터페이스 발전을 촉진한다. 셋째, 디지털 비서를 단순한 도구가 아니라 캐릭터를 가진 존재처럼 느끼게 만든다는 점이다.

산업적 관점에서도 의미가 크다. 스마트폰 제조사와 플랫폼 기업들은 음성 비서를 중요한 경쟁 요소로 활용하고 있으며, 사용자 경험을 차별화하기 위한 다양한 기술을 개발하고 있다. 멀티미디어 기반 응답 기술은 디지털 비서를 보다 매력적인 서비스로 만드는 핵심 요소가 될 수 있다.

또한 이러한 기술은 영화, 음악, 게임 등 콘텐츠 산업과 결합해 새로운 비즈니스 모델을 창출할 가능성도 있다.

최근에는 생성형 인공지능과 대형 언어 모델의 발전으로 디지털 개인 비서 기술이 빠르게 진화하고 있다. 미래의 디지털 비서는 미리 준비된 응답을 제공하는 수준을 넘어 실시간으로 이미지와 영상을 생성하고, 사용자 상황에 맞는 개인화된 콘텐츠를 제공할 가능성이 있다.

결론적으로 Microsoft의 US9514748B2 특허는 디지털 개인 비서 기술 발전 과정에서 중요한 기술적 아이디어를 제시한다. 사용자의 잡담형 발화를 인식하고 대중문화 기반의 멀티미디어 콘텐츠와 음성 표현을 활용해 풍부하고 재미있는 응답을 제공하는 시스템을 설명한다.

이러한 기술은 디지털 비서를 단순한 기능 수행 도구를 넘어 사용자와 상호작용하는 지능형 동반자로 발전시키는 중요한 기반이 된다. 앞으로 인공지능 기술이 더욱 발전함에 따라 디지털 개인 비서는 우리의 일상에서 더욱 자연스럽고 친숙한 존재로 자리 잡게 될 것이며, 이 특허에서 제시된 개념 역시 그 발전 과정에서 중요한 역할을 할 것으로 기대된다.

출처 : 인공지능신문(https://www.aitimes.kr)

+ Recent posts