합성데이터 : 진화한 카메라속의 이야기

2021. 12. 28. 09:13Digital_Log

 

우리가 보아온 대부분의 사진과 영상은 카메라를 통해서 '촬영된' 것들이었다.

촬영할 때 있던 것만 보여주는 게 아니라 크로마키와 같이 배경을 지우거나 무언가 더해졌다 할지라도 결국은 촬영하고나서 수정하는 것이었다.

크로마키 촬영(보통 녹색 또는 파란색으로 실제로는 촬영되지만 CG처리 과정에서 투명으로 처리되어진다.) 출처  ;http://www.freepik.com

 

그리고 몇 년 전 딥페이크가 새로운 이슈가 되었다. 

사진도 아닌 영상 속 인물의 얼굴을 바꿔치기하는 기술이었고, 이를 위해서 필요한 게 원본 동영상 + 바꿔치기할 인물의 사진 몇 장으로 그럴싸한 가짜 영상을 만들어 낼 수 있게 된 것이다.

아이언맨 얼굴이 다른 사람으로 바뀌어 있다.

 

이 기술의 파장은 엄청났다. 만약 대통령, 연예인의 딥페이크 가짜 영상이 나돌게 된다면, 나중에 진위 여부가 밝혀지더라도 당장은 얼마든지 나쁜 이미지를 선사해 줄 수 있을 테니 말이다. 

 

딥페이크가 무조건 나쁜 기술은 아니다. TV드라마나 영화를 제작 중인데 주인공이 사회적 물의를 일으키거나 사망한 경우 과거에는 이를 대처할 수 있는 방법이 없어 결국 다시 촬영해야 했다면, 이젠 딥페이크 기술로 다른 사람으로 바꿔버리면 되기 때문이다. 반대의 경우에도 다른 사람으로 찍고 원래 배우로 바꿔치기 하면 되니까.

또는 실사와 가까운 3D 애니메이션 제작에도 가상의 인물을 그려내기 위해서 다른 배우로 촬영한 후 얼굴만 입히는 방식으로 제작되기도 한다. 

 

하지만 이런 기술이 나오고 또 얼마의 시간이 지나서 새 기술이 적용되고 있다. 

사이언스 제공
이시구로 히로시 일본 오사카대 지능형 로봇연구실 교수가 본인의 키와 체형, 이목구비, 표정, 심지어 피부까지 똑 닮은 인조인간 ‘제미노이드’를 만들었다. 이 로봇은 원격조종으로 입술과 눈동자, 얼굴 근육을 움직일 수 있다. 사이언스 제공

 

이 실험으로 얻은 결론은 이렇다.

산업용 기계로봇에서 마네킹, 휴머노이드를 볼 때처럼 사람과 점점 닮을수록 친근감을 크게 느끼고, 안드로이드처럼 사람과 가장 흡사한 것을 볼 때에는 오히려 불쾌감을 느낀다도 답했다. 불쾌한 골짜기 현상이 나타난 것이다. 

익숙한 것을 선호하면서도 도플갱어처럼 너무 닮으면 경계심과 혐오감을 느낀다는 것이다.  그래서 진짜 사람이 아닌 모조품의 어색한 피부톤, 얼굴 표정, 눈동자의 움직임 등에서 이질감을 아주 빠르게 찾아낸다.

 

이러면서도 대척점에는 게임 제작자들에겐 게임에 등장하는 많은 인물(NPC)들을 용량은 적게 차지하면서도 가장 인간과 닮은 피부 질감, 색상, 눈동자, 근육 움직임 등을 최대한 자연스럽게 재현하고자 한다. 

 

데이터젠(Datagen)이란 기업은 가짜 사람 데이터를 만들어 판매한다.
데이터젠이 만드는 가짜 사람은 게임 아바타나 영화에 나오는 애니메이션 캐릭터가 아니라 AI 딥러닝 알고리즘의 학습에 투입될 데이터이다. 원본에 변형을 가하는 수준이 아니라 아예 기초 합성 데이터를 조합해서 한 명의 사람(키, 체중, 나이, 인종 등등 사람이 갖는 측정 가능한 모든 특징)을 만들어 낼 수 있게 된 것이다.

 

이른바 '합성 데이터'이다.

인공지능은 처음부터 완성되는 게 아니므로 판단의 근거를 형성하게 하는 학습이 필요하다.

그래서 예전엔 전문 배우가 카메라 앞에서 갖가지 표정을 지어서 학습을 시켰고, 성우가 감정을 담아 목소리 연기를 펼쳐야 했다면 지금은 실물이 아닌 이렇게 조합가능한 Data set을 가지고 배우게 된다.

 

감정 음성합성 데이터셋 : 30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일

출처 : 감정 음성합성 데이터셋 | AI 허브 (aihub.or.kr) 정부의 무료 개방 데이터 홈페이지

 

후략...

 

소개 글을 쓰고 있지만 이 분야에 대한 지식이 부족하며 합성데이터가 어떻게 활용될지는 모른다.

하지만 현대차가 신차를 내놓으며 광고를 찍어야 할 때 샘플로 쓸 차도 제공하지 못했고, 이를 CG로 처리했다고 한다. 얼마나 많은 사람들의 노력이 들어갔을지 추정조차 못할 텐데 합성데이터 기술이 조금만 더 가까이 오면 어려운 일이 아니라 비용 대비 충분히 가능한 일로 바뀔지 모른다.

 

합성데이터는 실제 인물 또는 사례를 그대로 드러내지 않고 익명화 할  수 있다는 장점으로 의료나 교통, 환경 등 다양한 분야에서 사용되고 있다. 

728x90