‘카지노’ 젊은 최민식 대역 안 썼다… ‘페이스 디에이징 기술’로 구현
디즈니+ 시리즈 <카지노>, ‘페이스 디에이징’과 ‘AI음성합성기술’ 사용했다 최민식과 이규형의 놀라운 싱크로율은 물론, 젊은 최민식도 데이터로 구현해내 AI음성합성기술로 점차 발전하는 콘텐츠 시장, AI 오디오 드라마도 내놨다
디즈니플러스의 오리지널 시리즈, <카지노>가 새로운 기술 ‘페이스 디에이징’과 ‘AI음성합성기술’을 도입하며 화제를 끌고 있다. 페이스 디에이징이란 기법을 활용해 배우 최민식과 이규형의 얼굴을 자연스럽게 연결시키고, AI음성합성기술로 캐릭터에게 새로운 목소리를 입히는 등 시리즈의 세계관을 생생하게 구현해냈다는 평이다.
<카지노>의 강윤성 감독은 “거친 삶을 살아온 ‘차무식’이란 캐릭터의 면모가 더욱 깊이 있게 들어갈 수 있으면 좋겠다”라고 생각했다. 제작팀은 감독의 요청에 따라 심도 깊은 작업 과정에 임했다고 발겼다. 배우의 표정에 맞춰 정교하게 기술을 입혀냈고, 촬영 상황과 배우의 연기 톤에 알맞는 3D 기술까지 적극 활용하여 디테일함을 더했다.
<카지노>가 활용하고 있는 AI 음성합성기술은 디즈니플러스가 해당 작품을 통해 세계 최초로 선보이는 기술이기도 하다. 캐릭터의 목소리를 창조하여 캐릭터만의 새로운 아이덴티티를 유지하는 것은 물론, 나이와 성별의 자연스러운 변환, 손쉬운 대사 교체, 가창 및 외국어, 더빙까지 영화의 무궁한 확장을 가능하게 한다.
‘AI 음성합성기술’을 맡은 ‘수퍼톤’ 팀은 2가지 미션을 지닌 채 작품에 임했다. 최민식 배우가 가진 연기톤을 유지하면서 자연스럽게 젊은 시절의 목소리를 재현해내는 것, 그리고 젊은 시절 목소리 구현 작업에 활용할 배우의 고품질 보이스 데이터를 확보하는 것이었다. 이에 제작진은 최민식 배우의 2-30대 필모그래피 데이터를 수집하여 모델링을 구현했고, 이는 최민식의 30대 모습을 그리는 데 십분 활용되었다.
‘페이스 디에이징’, 젊은 시절 대역 대신 기술 쓴다
‘페이스 디에이징’이란 젊은 시절의 모습의 대역 배우를 쓰지 않고, 기술의 힘을 빌려 현재 배우의 모습을 젊어 보이게 만드는 기술이다. 2006년 개봉한 ‘엑스맨 : 최후의 전쟁’에서 배우 패트릭 스튜어트와 이안 맥컬러의 젊은 모습의 장면이 할리우드 디에이징 기술의 초기 버전이다. 이는 ‘디지털 스킨 그래프팅’이라는 기술로 일컬어진다. 당시 60대인 배우들의 주름을 제거해서 젊은 시절의 배우들을 구현해 냈다.
미국의 갱스터 영화 <아이리시 맨>도 디에이징 기술이 적극 활용된 작품이다. 로버트 드 니로, 알 파치노, 조 페시 등 유명 배우들이 해당 기술력에 힘입어 젊은 시절부터 노년까지의 연기를 경계없이 해낸다. 기존의 방법으로 젊은 배우의 모습을 구현하려면, 얼굴에 동작 센서를 붙이고 카메라가 달린 헬멧을 쓴 후에 모션 캡쳐 무대에서 연기를 해야 하는 등 번거로운 과정을 거쳐야 했다. 하지만 <아이리시 맨>의 마틴 스콜세지 감독은 배우들의 연기를 방해하지 않고자 다른 방법을 고심했다. 그러던 도중 페이스 디에이징 기술을 개발 중인 ‘LIM 스튜디오’를 만나 디에이징 기술을 도입해 <아이리시맨>을 촬영하게 된다. 관계자는 당시 디에이징 방식이 기술 개발에만 2년이 걸리고, 비용도 수백만 달러가 들어간 대작업이었다고 밝혔다.
<카지노> 또한 페이스 디에이징 기술로 최민식과 이규형의 놀라운 싱크로율이 일찍이 화제가 됐다. <카지노>의 강윤성 감독은 “젊었을 때 최민식 배우의 사진을 보고 이규형 배우와 닮았다는 생각이 들었다. 이에 캐스팅 제안을 하게 됐고 이규형 배우도 흔쾌히 수락했다”라며 두 사람을 젊은 ‘차무식’과 현재의 ‘차무식’으로 캐스팅하게 된 비화를 밝혔다. 이규형은 고등학생부터 대학생 때까지의 ‘차무식’을 연기하며 열연을 펼칠 예정이다. 그 과정에서 강윤성 감독은 AI 기술을 이용한 페이스 디에이징 기법을 활용해 최민식과 이규형의 얼굴을 자연스럽게 연결시켜 젊은 ‘차무식’의 모습을 한 층 더 디테일하게 구현해냈다. 강윤성 감독은 “여러 가지 면에서 다양하게 시도를 해보면서 최적의 결과값을 찾게 됐다. 이 기술을 통해 최민식 배우의 젊은 시절을 구현해낼 수 있었다.”라고 말했다.
‘AI음성합성기술’, 새로운 목소리를 창조하다
페이스 디에이징 뿐만이 아니다. <카지노>에는 최민식 배우의 젊은 목소리 구현을 위해 AI 음성합성기술이 활용됐다. 이에 한층 더 높은 완성도의 작품을 선보일 것으로 구독자들의 기대를 고조시키고 있다.
음성합성기술은 꽤 오래 전부터 우리 일상에 도입되었던 기술이다. 초창기의 음성합성기술을 활용한 애플의 ‘시리’나 아마존의 ‘알렉사’ 등이 그 예다. 단어와 소리들을 단순하게 연결한 기술로, 투박하고 기계적인 느낌을 준다. 보다 자연스러운 소리를 내기 위해서는 사람이 일일이 조정해야 했다.
이후 인공지능 딥러닝이 등장하면서 음성합성기술이 본격적으로 고도화되기 시작했다. AI 성우가 스스로 데이터를 분석하여 텍스트를 읽는 속도와 발음, 억양 등을 조절하니 개발자들이 음성을 정확하게 조율 필요가 없어진 것이다. 대신 몇 시간 분량의 오디오 파일만 입력하면 알고리즘이 스스로 패턴을 학습하기 시작했다.
그렇다고 해서 자판기처럼 버튼만 누르면 그럴 듯한 합성 음성이 나오는 것은 아니다. 인간의 목소리가 인간답게 들리는 것은 일관성이 없고 감정이 섞여 있기 때문이다. 같은 말도 맥락에 따라 완전히 스타일이 달라지는 것도 인간의 음성이 지닌 특징이다.
이런 미묘한 특징을 정확히 살리기 위해서는 딥러닝 모델을 미세하게 조정해야 한다. 따라서 여기에 필요한 정확한 훈련 데이터를 제공할 진짜 성우를 찾아야 한다. 이를 위해 최소 한두 시간 분량의 오디오가 필요하고, 이를 토대로 세부적인 사항을 일일이 조정하여 자연스러운 복사본을 합성하는 데 몇 주가량 소요된다.
특히 게임 및 엔터테인먼트 산업에서 AI 음성합성기술을 주목하고 있는 추세다. 소난틱(Sonantic)은 비디오 게임 및 애니메이션 회사를 위해 캐릭터의 목소리를 생성하는 AI스타트업이다. 소난틱에 따르면, 몇몇 기업은 모든 단계에 성우가 아닌 합성 음성을 쓰는 경우도 있다고 한다. 영화 및 TV 프로그램도 배우가 단어를 잘못 말하거나 발음이 틀렸다면 ‘리셈블닷에이아이(광고와 스마트 비서에 사용되는 음성을 설계하는 플랫폼)’ 등을 통해 음성을 수정하는 경우가 잦다.
최근 ‘AI 목소리’가 배우로 등장하는 AI 오디오 드라마가 공개되기도 하는 등, AI 음성의 쓰임은 확대되고 있는 추세다. 지난 10월 공개된 <어서 오세요, 휴남동 서점입니다>는 동명의 베스트셀러를 원작으로 한 AI 오디오 드라마가 대표적인 사례다. 드라마 출연진 19명 중 8명의 배역을 ‘AI 목소리’가 연기했습니다. 가수 윤도현의 목소리가 주인공들의 사랑을 응원하는 사장님 배역에 사용된 것이 화제를 불러 일으켰다.
AI 목소리를 생성하는 과정에는 ‘감정 더빙 기술’이 활용됐다. 화자가 특정 감정을 표출할 때 쓰는 발음과 억양 등까지 학습해, 즐거움, 슬픔, 화남 등의 감정을 문장에 합성하는 기술이다. 배우나 성우가 몇 문장만 녹음을 해두면, AI가 이를 학습해 수많은 문장으로 확장시킨다. 이번 오디오 드라마의 경우 배우가 5분 이내 30문장만 녹음을 해두면 충분한 양의 데이터가 쌓이는 것으로 확인됐다.
계속해서 발전하는 콘텐츠 기술… 긍정적으로 활용돼야
페이스 디에이징, AI 음성합성기술과 같은 기술들은 지금 이 시간에도 계속해서 발전하고 있다. 최근 딥페이크 기술을 활용해 대선 주자의 공략을 설명하는 등 기술이 우리 일상 속에서 점차 녹아들고 있는 상황이다. 이러한 기술발전이 반갑기도 하지만, 이는 한편으로 ‘디지털 영상을 믿지 못하는 시대’가 도래하고 있음을 의미하기도 한다. CCTV 증거자료에 딥페이크 기술이 활용되는 등, 악용할 여지는 충분하다. 최근 유명 아이돌을 비롯한 연예인의 얼굴을 딥페이크 기술에 적용해 불법 활용한 사례가 세간의 관심을 불러일으키기도 했다. 기술을 활용하는 데에 이용 당사자가 책임을 가지는 것은 물론, 기술 활용 규제를 어떤 식으로 다뤄야 할지 사회적으로 논의되어야 할 때다.