Notice
Recent Posts
Recent Comments
Today
Total
04-19 00:01
Archives
관리 메뉴

Jeongchul Kim

ARTIK 프로젝트 - 스마트 휴봇 인공지능 대화체 본문

사물인터넷

ARTIK 프로젝트 - 스마트 휴봇 인공지능 대화체

김 정출 2018. 5. 14. 01:41


ARTIK 프로젝트 - 스마트 휴봇 인공지능 대화체

삼성, KEA 2017 : ARTIK Challenge - KBRO

삼성 COEX 최종 우수 10개팀 출전으로 삼성 COEX에서 KES 2017(한국전자전) 시연(2박3일)


사람을 닮은 로봇 = 스마트 휴봇

https://www.youtube.com/watch?v=796UUuLAs0s&t=3s



혼자사는 1인 가구, 독신 가정, 실버 세대 증가

일본의 소프트 뱅크 사의 페퍼 / 실버 세대와 함께하는 동거 프로젝트


음성 인식 대화체 제품
원기둥 대화체 제품에서 얼굴이 생겨나는 로봇들


Smart Hubot 플랫폼 구축을 통한 대화체 구현

- Smart Hubot(Human like Robot)이란 영상처리를 통해 사용자를 인지하며, 사용자의

음성/감정을 인식하여 대화체로 활용하는 기술이다. [이를 통해 사용자에게 유용한 기 능을 제공할 수 있다. 본 과제에서는 크게 4가지 기능 (음성 대화체, 비주얼 효과, 얼 굴 인식, 감정 인식)을 구현하고자 한다.

- 사용자의 감정인식 기능이 내장된 인공지능 대화체를 통해 기본적인 대화가 가능하다. Smart Hubot은 사용자의 대화에 대한 형태소 감정 분석을 실시하여, Smart Hubot의 감정을 표현하여 사용자와의 교감을 극대화 시킨다.

- ARTIK을 통해 Smart Hubot의 기본 플랫폼을 구축한다. ARTIK 710 스피커, 마이크, 디스플레이(빔프로젝터)를 내장하여 웹앱 프로그램으로 전반적인 Hubot을 컨트롤한다. ARTIK 053은 ARTIK CLOUD와 연동되어 LED를 제어하며, Raspberry PI3를 이용해 웹캠을 통해 들어오는 영상을 분석하여 사람을 감지하고, 서보모터를 제어하여 사람을 트랙킹한다.

기존 기술대비 차별점

o 음성인식 인공지능비서 ( Google, Amazon )

- Google Home과 Amazon Echo는 인공지능 비서 제품으로 음성인식을 통한 서비스로

음악 재생, 검색 서비스, 물품 구매와 스마트 홈 제어 기능을 추가하였으나, ‘대화체로 서 상호 작용은 없다’

o 음성인식 스피커 NUGU ( SK텔레콤 )

- 인공지능 음성인식 스피커인 누구는 음성명령을 통해 음악듣기, 일정관리, 가전기기

ON/OFF 기능을 수행한다. 소형인 대신 ‘Display 기능이 존재하지 않다’

※ 인공지능 대화체를 활용한 스마트 휴봇는 기존의 제품에서 벗어나 사용자와 상호 공감 하고 대화가 가능한 혁신적인 제품이다. 또한 표정/모션 인식은 추후 무궁한 발전이 가능하다. 스마트 휴봇을 통한 홈 IoT 플랫폼 구축을 통해 다양한 시장진출의 가능성 을 보였다.

※ Smart Hubot은 삼성 AI 스피커에 효과적으로 디스플레이 구축 가능한 제품이다.


장치별 개발 목표

ARTIK 710: Smart Hubot을 전체적으로 컨트롤하는 웹앱을 개발한다. 웹앱으로 음성 인식(STT) 기술과 음성 합성(TTS) 기술로 사용자와 음성으로 상호작용하며, 대화체의 기술은 챗봇(Chatbot) API와 자체 대화 DB를 구축한다. ARTIK 710을 빔프로젝터와 연결되어 웹앱에서 나오는 Hubot의 얼굴을 재생한다. 또한, 마이크를 통해 음성 입력 가능한 여부를 사용자가 알 수 있도록 ARTIK CLOUD와 연동되어 ARTIK 053으로 데 이터를 전송하고 LED를 제어한다.

ARTIK 053: ARTIK CLOUD으로 ARTIK 710과 연동되어 LED 컨트롤 데이터를 받고, Hubot에 장착된 LED를 GPIO 제어한다.

Raspberry PI 3: USB 웹캠과 서보모터가 장착되어 웹캠을 통해 들어오는 영상을 딥러 닝 기술을 이용하여 얼굴 인식을 하여 서보 모터를 움직여 사람을 Tracking한다.


기능별 개발 범위 및 구현 수준

GUI(얼굴 가시화): 사용자와 교감할 수 있는 Face UI를 제공하며, Reallusion 회사의 CrazyTalk8 프로그램을 이용해 2D, 3D Avatar 제작

* CrazyTalk 8 (https://www.reallusion.com/crazytalk/)


음성인식: STT(Speech To Text) 기술을 이용해 사용자의 음성을 마이크로 녹음하고, 이를 Google Cloud Speech API를 사용해

텍스트로 변환받아 대화체 프로그램으로 전 송한다.

* Google Cloud Speech API(https://cloud.google.com/speech/) 80가지 언어 제공.


음성출력: 음성출력(음성합성)은 TTS(Text To Speech) 기술을 이용해 입력으로 텍스트 를 전송하면 여성/남성 나레이션 음성으로 변환하여 사용자와 대화를 주고받는다.

* ResponsvieVoice API(https://responsivevoice.org/)


- 대화체: 자체 대화 DB와 챗봇 API를 통해 인공지능 대화체를 구성한다.


- 영상처리(얼굴인식): 웹캠을 통해 실시간 들어오는 영상 정보에서 OpenCV와 Caffe 기 반 딥러닝 기술을 사용하며, 모델은 MTCNN(Multi-Task Cascaded Convolutional Networks)를 기반으로 사용자의 얼굴을 다중으로 감지(Detection) 한다.

* Caffe - Berkeleyvision 딥러닝 플랫폼 (http://caffe.berkeleyvision.org/)


- 감정표현 : Tensorflow 기반의 형태소 분석 감정 네트워크를 통해서 사용자의 대화를 6개의 감정(좋음/기분 좋음/안정/불안정/싫음/고통)으로 분류하고, 그 결과를 계층적 감정맵( Hierarchical emotional map)에 투사시켜 Smart Hubot의 감정을 표현한다.

* Tensorflow - Google 딥러닝 플랫폼 (https://www.tensorflow.org/)



하드웨어 제작

마네킹을 이용하여 제작

하드웨어 구성도

얼굴 가시화

빔프로젝터와 거울 반사에 따른 투시

얼굴의 2D, 3D다양화 그리고 표정

CrazyTalk 8 : 영상+시각 디자인 없이도 만들 수 있는 캐릭터


사람의 얼굴을 가시화

로마의 휴일 - 오드리 햅번

얼굴 인식에 따른 모터 제어

대화에 있어서 시선의 중요성 : 눈 마주침(Eye contact)

얼굴 인식에 따른 모터 제어

웹캠을 통한 사용자 얼굴 인식

- 웹캠을 통해 들어오는 영상 정보 처리를 위해 Opencv Python을 이용하여 개발한다.

- 얼굴 인식은 MTCNN(Multi-Task Cascaded Convolutional Networks)을 사용하며 Raspberry PI에서 사용할 수 있도록 딥러닝 기반의 caffe-rpi를 빌드 후, 사용할 수 있

다.

* Raspberry PI3 Caffe Build : https://github.com/benjibc/caffe-rpi


얼굴 인식에 따른 모터 제어

얼굴 인식을 통해 얻은 사람의 위치로 서보 모터 제어로 이동하여 목이 움직임


대화체

챗봇 API와 인공지능용 한국어 말뭉치를 통한 대화체 구성


딥러닝 형태소 분석을 통한 감정

사람의 감정은 어디서 생겨날까? 컴퓨터가 모방할 수 있을까?


딥러닝 형태소 분석을 통한 감정

사용자의 음성으로 들어온 문장에 대한 휴봇의 감정맵 가시화



Comments