ByteDance, 딥페이크 도구 출시

TikTok의 모회사인 ByteDance가 사진과 오디오 입력만으로 놀랍도록 사실적인 딥페이크 동영상을 생성할 수 있는 AI 시스템인 OmniHuman-1을 공개했습니다(Forbes와 TechCrunch에 따르면). 이 혁신적인 기술은 AI로 생성된 동영상 기능의 획기적인 발전을 의미하며, 잠재적인 응용 분야와 영향력에 대한 기대와 우려를 불러일으키고 있습니다.

OmniHuman-1의 주요 기능

OmniHuman-1은 기존의 비디오 생성 도구와 차별화되는 인상적인 기능들을 자랑합니다. 이 시스템은 5초에서 25초 길이의 비디오를 만들 수 있으며, 무제한 길이의 비디오를 만들 수 있는 기능도 있습니다. 다양한 출력 형식을 제공하기 위해 조정 가능한 화면 비율과 신체 비율을 지원합니다. 특히, AI는 말하고 노래하고 자연스럽게 움직이는 피사체의 비디오를 만들 수 있으며, 입술 움직임, 표정, 신체 제스처가 동기화됩니다. 인간을 넘어, 이 기술은 만화나 의인화된 캐릭터에 생명을 불어넣을 수도 있습니다. 또한, OmniHuman-1은 기존의 비디오를 편집할 수 있으며, 심지어 인간의 팔다리 움직임을 변경할 수도 있어, 창의적인 가능성을 더욱 확장합니다.

사실적인 비디오 데모

OmniHuman-1의 기능은 인상적인 일련의 비디오 데모에서 잘 드러납니다. 그 중에서도 눈에 띄는 예는 자연스러운 손동작과 표정을 포함한, 칠판 앞에서 말하는 앨버트 아인슈타인의 생생한 애니메이션입니다. AI의 다재다능함은 음악의 스타일에 맞는 적절한 제스처를 사용하여 노래하는 연기를 생성하는 능력으로 더욱 잘 드러납니다. 이러한 시연은 하나의 이미지 입력으로 사실적인 입술 움직임과 바디 랭귀지를 포함한 설득력 있는 전신 애니메이션을 생성하는 시스템의 능력을 강조합니다. 생성된 비디오의 품질은 특히 오디오 입력에 의해 구동될 때 이전의 방법보다 '훨씬 뛰어남'을 보여줍니다.

기술 교육 세부 사항

OmniHuman-1 모델은 데이터 낭비를 줄이는 혁신적인 '옴니 조건' 접근 방식을 활용하여 19,000시간 분량의 비디오 자료로 구성된 대규모 데이터 세트에 대해 훈련되었습니다. 이 멀티모달 시스템은 이미지, 오디오, 신체 자세, 텍스트 등 다양한 입력 소스를 통합하여 매우 사실적인 결과를 만들어 냅니다. 이 모델의 구조는 다양한 시나리오에 적용할 수 있으며, 하나의 참조 이미지와 오디오 클립을 결합하여 비디오를 만들 수 있습니다. 연구진에 따르면, OmniHuman-1은 최소한의 입력 신호를 기반으로 현실적인 인간 동영상을 생성하는 데 있어 '기존의 방법보다 훨씬 우수한 성능을 발휘한다'고 합니다.

시스템의 한계

그럼에도 불구하고, OmniHuman-1은 인상적인 기능에도 불구하고 몇 가지 주목할 만한 한계를 가지고 있습니다. 이 시스템의 성능은 입력 이미지의 품질에 크게 의존하며, 저해상도 또는 조명이 어두운 사진은 결과물의 품질을 떨어뜨립니다. 특정 복잡한 자세와 움직임은 여전히 AI에 도전 과제이며, 비현실적이거나 잘못된 애니메이션으로 이어질 수 있습니다. OmniHuman-1은 짧은 클립 제작에 탁월하지만, 더 길고 일관성 있는 비디오 제작은 여전히 어려운 과제입니다. 이러한 한계는 AI로 생성된 비디오 기술의 지속적인 개선의 필요성을 강조하는 한편, OmniHuman-1과 같은 도구는 딥페이크 제작의 가능성을 확장합니다.

비상장 추천 주식

ByteDance - TikTok 및 OmniHuman-1을 포함한 AI 영상 생성 기술 선도.
Runway ML - AI 기반 영상 생성 및 편집 도구 개발 기업.

jaywhy502087 님의 블로그