카카오브레인이 정의하는 디지털 휴먼은 사람이 조종하는 아바타를 지칭하기도 하지만, 모습 뿐만 아니라 사람과 소통할 수 있는 인공지능입니다. 우리가 디지털 휴먼을 만났을 때 외모는 물론 소통에도 이질감이 없어야 한다는 생각을 갖고 있습니다. 이러한 생각 하에서 카카오브레인의 Digital Human팀은 사람의 모습과 행동을 인식할 수 있는 딥러닝 엔진을 연구 개발하고 있습니다.


2D Pose Estimation / Person Segmentation과 같은 기술을 연구 개발해 COCO Challenge에서 수상하고 실제 서비스에 적용한 경험이 있습니다. 현재는 3D face/hand/body 인식 기술을 연구하고 있습니다. 개별적인 기술들을 실제로 활용할 수 있도록 정확도와 속도의 수준을 끌어올림과 동시에 multi-task 학습을 통해 효율적이면서 정확한 AI 인식 엔진을 만드는 것에도 연구를 집중하고 있습니다.

또한 Neural Rendering 기술을 중심으로 디지털 휴먼을 시각화 하는 기술을 연구하고 있습니다. 원하는 대로 표정과 형태, 조명 등을 조절하면서 실사처럼 자연스러운 렌더링 결과를 얻어낼 수 있는 실시간 디지털 휴먼 엔진을 만드는 것을 목표로 하고 있습니다.

마지막으로 위의 기술들을 모바일에서 실시간으로 사용할 수 있는 AI 엔진을 만드는 작업도 진행하고 있습니다. 아무리 좋은 기술이 있더라도 다른 사람들이 가져다 쓸 수 없다면 그 의미가 퇴색됩니다. 카카오브레인 Digital Human팀은 카카오브레인의 디지털 휴먼 기술을 사람이 쉽고 편리하게 활용할 수 있도록 SDK를 직접 디자인하고 모바일을 위한 최적화를 진행하고 있습니다.

디지털 휴먼을 만들기 위해서는 어떤 기술을 개발하고 있나요?

디지털 휴먼이 사람과 상호작용하기 위해선, 가장 먼저 디지털 휴먼의 형태와 표정을 자연스럽게 ‘시각화’ 할 수 있어야 합니다. ‘불쾌한 골짜기’를 피하는 가장 첫 번째 단계입니다. 그리고 AI가 사람의 말과 표정, 행동을 ‘인식’ 할 수 있도록 하고 그를 바탕으로 디지털 휴먼 자신의 행동과 반응이 올바른지도 ‘판단’ 할 수 있어야 합니다.

이 세 가지 과정 중에 하나라도 부족한 부분이 있으면 사람들은 어색해하고, 디지털 휴먼은 불쾌한 골짜기에 빠지게 됩니다. 이를 방지하고자 카카오브레인은 뉴럴 렌더링(Neural Rendering)을 통해 보다 더 렌더링을 정교하게 하는 동시에 인간과 디지털 휴먼의 소통이 자연스러울 수 있도록 기술을 다듬고, 그것을 모바일을 비롯한 어떤 환경에서도 막힘없이 쓸 수 있도록 하는데 집중하고 있습니다.

뉴럴 렌더링 (Neural Rendering)

뉴럴 렌더링은 딥러닝과 기존의 그래픽스 기술이 결합해 만들어진 새로운 분야입니다. 기존 그래픽스 기술로도 디지털 캐릭터를 만들어 낼 수는 있지만, 정말로 ‘진짜’ 같이 보이는 디지털 휴먼을 만들려면 어마어마하게 큰 노력과 비용이 필요하며 캐릭터를 렌더링하는 데에도 긴 시간이 필요합니다. 딥러닝을 활용한 영상 생성 기술과 data-driven 접근 방식을 활용하면 기존 그래픽스 파이프라인의 단점들을 극복할 수 있습니다.

가장 먼저, 뉴럴 렌더링을 이용하면 자연스럽고 실사 같은 영상을 쉽게 만들어 낼 수 있습니다. 여기서 자연스러움은 외모 이외에도 주변 환경, 조명과의 조화나 동작의 자연스러움 등을 모두 포함하는 개념입니다. 실제 사람과 구분이 불가능한 정도의 CG 캐릭터와 환경을 사람의 손으로 일일이 디자인하는 것은 어렵거나 불가능한 일입니다.

하지만 Differentiable Renderer를 활용하면 뉴럴 네트워크가 실사와 생성된 영상의 차이를 없애는 방법을 스스로 학습하도록 할 수 있습니다. 과거에는 사람들이 음성과 영상 인식을 위한 feature와 classifier를 직접 설계했지만, 지금은 딥러닝이 최적의 feature를 학습해 더 좋은 결과를 내고 있죠. 이와 같은 방식이 렌더링 기술에도 똑같이 적용될 수 있습니다.

기존의 그래픽스 기술과 뉴럴 랜더링의 차이

기존의 컴퓨터 그래픽에 비해 훨씬 더 빠르게 결과물을 얻어낼 수 있는 것도 장점입니다. 실사와 같은 머리카락, 눈동자, 조명 반사 등을 계산하기 위해서는 엄청나게 복잡한 시뮬레이션이 필요합니다. 하지만 딥러닝을 활용하면 이러한 복잡한 시뮬레이션을 수십 배 이상 빠르면서도 더 정확하게 계산해 낼 수 있습니다.

이미 딥러닝을 통해 유체 시뮬레이션, 날씨 예측 알고리즘, 파티클 효과 등을 가속하는 연구 결과들이 많이 있고, 앞으로 더 발전할 여지가 있습니다. 이러한 빠른 렌더링 속도는 실시간으로 상호작용하는 디지털 휴먼을 위해 필수적인 요소입니다.

마지막으로 사람, 사물의 3D 모델을 디자이너의 수작업 없이 사진이나 동영상을 분석해 만들어 낼 수 있습니다. 과거에도 비슷한 경우들이 있었지만, 실제로 사용하기에는 결과물의 품질이 많이 부족했습니다. 하지만 뉴럴 렌더링 기술을 이용해 고품질을 3D 모델을 얻어내는 연구가 활발히 진행 중이며, 관련 기술이 무서운 속도로 발전하고 있습니다. 이를 활용하면 비싸고 촬영하기 어려운 3D 스캐너가 없어도 한 장의 사진이나 짧은 영상에서 3D 디지털 클론을 만들어낼 수 있습니다.

모바일/실시간 최적화된 AI 엔진

카카오브레인 Digital Human팀은 미리 만들어진 영상으로 제공되는 것이 아닌, 사람들과 직접 상호작용할 수 있는 디지털 휴먼을 그리고 있습니다. 말 한마디에 대한 대답을 듣는 데에 몇 초, 몇 분씩 기다리는 것을 상상해보세요. 과연 우리는 그런 디지털 휴먼과 대화하고 교감할 수 있을까요? 긴밀하고 자연스러운 상호작용을 위해서는 빠른 반응 속도가 필수적입니다. 이를 위해서는 엔진이 모바일/edge 기기의 자원을 최대한 활용해 실시간으로 동작할 수 있어야 합니다.

또한 모바일 환경에 맞추어 최적화된 AI 엔진은 더 많은 사람이 디지털 휴먼을 접할 수 있도록 만들어 줍니다. 모바일이건 서버건 상관없이 최적화된 엔진은 필요한 컴퓨팅 비용을 줄여주고 그로 인해 더 많은 서비스에서 디지털 휴먼을 적용할 수 있도록 해줍니다. 사용자들 입장에서는 자신의 영상이 서버로 전송되고 저장되는 등 프라이버시에 대한 걱정 없이 디지털 휴먼을 활용할 수 있습니다.’

사람 인식 기술

사람/사물의 형체나 움직임을 인식하기 위해 딥러닝을 사용하는 연구는 매우 활발히 이루어진 바 있고, 많은 연구 결과와 오픈소스가 공개되어 있습니다. 하지만 논문을 위해 만들어진 데이터와 방법론들은 제한된 환경만을 고려하고 있어, 그걸 그대로 실제 문제에 적용할 수가 없는 경우가 많습니다. 특히 3D 인식, 행동 인식 등과 같이 데이터를 수집하기가 어려운 문제에서 이와 같은 단점이 두드러집니다. 저희는 이러한 부분을 극복하기 위해서 좋은 데이터, 효율적인 구조, 네트워크 최적화 등 여러 측면에서 연구개발을 진행하고 있습니다.

또한 연구적으로는 이미지를 ‘보고 이해’ 하는 것과 ‘그려내는 것’은 긴밀하게 연결되어 서로 시너지를 낼 수 있는 연구 주제입니다. 특히 요즘과 같이 수많은 이미지/동영상 데이터를 쉽게 구할 수 있는 상황에서 더욱 그렇습니다. 아주 단순하게는 뛰어난 생성 모델을 활용해서 학습용 데이터의 다양성을 늘리거나, 인식 모델의 결과를 활용해서 생성 모델의 표정/자세를 컨트롤 할 수 있습니다. 조금 더 나아가면, 생성 모델과 인식 모델을 연결해 서로 상호보완적으로 semi-supervised 혹은 unsupervised training 하는 것까지 기대할 수 있습니다.

3D face mesh estimation 등의 기술 시연

향후 계획은?

이미 Digital Human 모바일 인식 기술은 카카오 VX의 ‘스마트 홈트’, 카카오톡의 그룹 영상통화 등 카카오 공동체 내의 서비스를 통해 일부 공개되어 있습니다. 현재는 기존의 2D 기술 위주지만 머지않아 3D 얼굴 인식 기술도 선보일 예정입니다.

2022년 내에 뉴럴 렌더링을 활용한 디지털 휴먼 기술 데모를 공개할 예정입니다. 아직은 모바일에서 실시간으로 서비스를 제공하기에 속도와 형태 등이 불완전하기는 해도 카카오브레인 크루(krew)들의 지속적인 연구를 통한 기술 발전 상황을 볼 때는 빠른 시일 내에 극복이 가능할 것이라고 예상합니다. 그 외 일반적인 연구 결과물이나 기술 발표 내용은 카카오브레인의 웹사이트와 각종 행사를 통해 지속해서 공개될 예정입니다.

카카오 그룹페이스톡
Neural rendering을 이용한 얼굴 생성결과

버추얼 인플루언서, 버추얼 어시스턴트 등 디지털 휴먼은 점점 우리 일상에 가까워지고 있습니다. 가까운 미래에는 누구나 개성을 담은 실사 캐릭터를 디자인하고 실시간으로 감성표현을 하는 등 인간과 구분할 수 없는 다양한 디지털 휴먼이 등장할 텐데요. 누구나 손쉽게 나와 닮은 똑똑한 디지털 휴먼을 손쉽게 만드는 세상, 카카오브레인이 선도해 나가겠습니다!