> 뉴스 > 커버스토리
     
반년 걸린 CG 영상 한 주면 뚝딱
[COVER STORY] ‘소라’가 쏘아올린 동영상 AI 시대- ① 영상업계 판도 뒤집나
[169호] 2024년 05월 01일 (수) 두즈항 economyinsight@hani.co.kr

 

   
▲ 배경081사진은 오픈AI의 동영상 생성 인공지능(AI) ‘소라’가 만들어낸 동영상 갈무리 화면으로 ‘개가 주택가 창문을 넘나들고 있다’라는 명령어를 넣어 나온 결과물이다. 오픈AI 누리집


소라가 쏘아올린
동영상 AI 혁명
미국의 인공지능(AI) 기업 오픈AI가 동영상 생성 AI 모델 ‘소라’를 내놓은 이후 관련 업계에서 영상 생성 AI 개발 전쟁이 벌어지고 있다. 오늘날 온라인 트래픽의 80% 이상이 영상 콘텐츠에서 발생하는 등 영상이 콘텐츠에서 차지하는 비중이 점차 커지면서 선제적으로 패권을 거머쥐기 위한 전략이다. 특히 중국의 도전이 무섭다. 민관이 힘을 합쳐 대대적인 투자에 나서며 미국을 따라잡겠다는 의지다. 틱톡의 모회사 바이트댄스와 알리바바그룹 등은 소라를 뛰어넘는 생성 AI 개발을 목표로 한다. 그러나 연구개발 인재 확보에 어려움이 많고 기술력도 뒤떨어져 단시일 안에 미국을 따라잡는 것은 무리라는 평가다. _편집자


두즈항 杜知航 관충 關聰 <차이신주간> 기자

“AI스피어(AIsphere)는 인력과 자원을 집중해서 3개월에서 6개월 안에 소라(Sora)의 현재 수준을 따라잡겠다.”
“성수AI(Shengshu-AI)는 2024년 안에 오픈(Open)AI가 최근에 공개한 소라의 효과를 실현할 것이다.”
미국 인공지능(AI) 기업 오픈AI가 문자 기반 영상 생성 모델(Text To Video Model) 소라를 공개한 후 한 달도 지나지 않은 2024년 3월11일과 12일, 중국의 신생기업 AI스피어와 성수AI가 새로운 자금조달 소식을 알렸다. 소라를 추격하는 것이 목표였다.
오픈AI는 2022년 11월 대화형 챗봇 챗지피티(ChatGPT)를 출시했다. 신경망 아키텍처인 트랜스포머(Transformer·단어와 단어, 문장과 문장 사이의 확률 관계를 사전에 학습시켜 인간처럼 언어를 구사하게 하는 것) 기술이 향상되면서 자연어 이해와 문장 생성에서 문자 기반 이미지 생성으로 발전했고, 다시 문자 기반 영상 생성 모델인 소라까지 탄생했다. 소라는 기술과 상업적 응용의 비약적인 성장 가능성을 의미한다.
사용자가 명령어 문장 몇 줄만 입력하면 소라는 명령어에 대한 이해를 바탕으로 1분 안에 영상을 만들어 사용자가 생각한 시각적 장면을 구현한다. 영상 정보를 이해한 정확도(Fidelity)와 구현의 재현성이 기존에 출시된 비슷한 제품 수준을 뛰어넘었다. 2024년 2월15일 소라를 공개한 후 오픈AI는 틱톡(TikTok)에 공식 계정을 개설하고 소라가 만든 영상을 게시했다. 3월13일 현재 가장 인기 있는 영상은 조회수 20만 회를 넘었고 구독자가 23만 명, 누적 ‘좋아요’ 수는 140만 회를 넘겼다.
2023년 춘절 연휴에는 챗지피티와 거대모델(Large Model)이 주요 화제였는데 2024년 춘절 연휴에는 소라가 화제가 돼 국내 각종 커뮤니티를 달궜다. “기술의 발전 속도를 보수적으로 예상했다고 판단하고 연휴 기간에 급하게 최고경영자와 화상회의를 열고 제품 형태에 관한 계획을 다시 논의했다.” AI마케팅 업체 아오촹광녠의 연구개발 책임자 장훙춘은 “춘절 전까지만 해도 3~4개월이 지나야 문자 기반 영상 생성 기술이 질적인 성장을 거둘 것으로 예상했다”고 말했다.
 

   
▲ 소라가 시연 영상을 공개한 직후인 2024년 2월26일부터 <중국중앙텔레비전방송국>(CCTV)은 중국 최초로 문자 기반 생성 영상으로 제작한 애니메이션 <천추시송>(千秋詩頌)을 방영했다. CCTV 화면 갈무리

소라가 불러올 충격
산업 가치사슬 하단으로 연쇄반응이 이어졌고 영화투자사와 특수효과업체, 게임개발사 등 관련 분야 기업들은 소라가 가져올 충격을 예측했다. 사실 소라는 일부 전문가에 한정해 기능을 시험했고 일반에 공개하지 않았다. 시장에서는 아직 경험하지 못한 상상만으로 관련 분야 기업의 새로운 가치를 찾기 시작했다.
그러나 2023년 챗지피티가 투자 열풍을 일으킨 것과 대조적으로 중국의 대형 기술기업의 반응은 차가웠다. 그동안 대형 기술기업은 앞다투어 거대언어모델(Large Language Model) 개발을 시작했고 신생기업과 함께 경쟁하면서 중국의 챗지피티가 되겠다고 장담했다. 하지만 소라가 출시된 지금은 이성적인 태도를 유지하고 있다. 그 배경에는 기술 격차에 대한 냉정한 인식이 있다.
중국에서 거대모델을 개발하는 기업의 최대 난관은 연산능력이다. 중국에서 소라 수준의 컴퓨팅 클러스터 규모를 갖춘 기업은 없다. “중앙처리장치(CPU)와 그래픽연산유닛(GPU)을 동시에 구동해 전력 소비량을 줄이면서도 시스템의 연산 속도를 높이는 이기종 컴퓨팅(Heterogeneous Computing)의 기술 격차가 점차 확대될 것이란 판단 아래 상업적 응용 방향이 명확하지 않으면, 거대모델을 개발한 기업이 이 방향을 공략하진 않을 것이다. 틱톡의 모기업 바이트댄스(ByteDance)가 유일하게 투자할 가능성이 있다.” 한 거대모델 개발사 임원은 “일부 신생기업이 소라를 추격하겠지만 기술의 실천 경로를 복제하는 것이지 연산능력을 같은 규모로 늘리겠다는 뜻은 아니다”라고 말했다.
중국 최대 검색엔진 기업 바이두의 리옌훙 최고경영자(CEO)는 2024년 2월28일 열린 실적보고회에서 영상 생성 모델을 개발할 것인지 묻자 앞으로는 기술의 응용을 기준으로 판단하겠다고 대답했다. 그는 “사용자와 고객사가 어느 분야에서 거대모델을 개선해야 하는지 알려주게 할 것”이라면서 “영상과 문자, 이미지를 포함한 멀티모달 모델 개발이나 신뢰성 개선이 방향이 될 수 있다”고 말했다. 거대언어모델 ‘어니봇’(ERNIE Bot)을 보유한 바이두는 문자 기반 영상 생성 기술의 목표가 아직 명확하지 않다.
시장에서는 짧은 동영상 플랫폼이 문자 기반 영상 생성 기술에 대한 ‘비탄력적 수요’가 있다고 판단한다. 그러나 바이트댄스 관계자는 말했다. “인공지능으로 문자와 이미지를 생성하는 국내 기술과 외국의 거대모델은 각각 65점과 95점 수준이다. 격차가 있지만 국내 기술도 합격선에 도달했다. 하지만 이 기준을 영상 분야에 적용하면 점수가 10~20점과 80점으로 우리는 합격선과 거리가 멀다.”
소라 개발팀은 소라가 연구사업이지 제품이 아니며 당분간 외부에 개방할 계획이 없다고 밝혔다. 지난 1년 동안 거대언어모델 열풍을 겪은 후 국내 투자자와 창업자들도 제품의 상업화 응용을 실현해야 살아남을 수 있다는 사실을 알고 있다.
왕창후 AI스피어 CEO는 “인공지능 영상 생성 기술을 개선해 사용자가 실제로 사용할 수 있도록 만들고 다양한 형태의 제품으로 창작자와 소비자에게 능력을 부여하는 것이 신생기업과 대기업, 본격적인 서비스를 시작하기 전인 소라의 성패를 결정하는 관건”이라면서 “아직 모두에게 기회가 있다”고 말했다.
오픈AI는 소라가 실제 세계를 이해하고 시뮬레이션할 수 있는 ‘세계 시뮬레이터’(World Simulator)의 기초라면서 범용AI(Artificial General Intelligence)를 실현하기 위한 중요한 이정표라고 설명했다. 범용AI는 고도로 자율적이고 똑똑한 AI의 발전된 형태다. 오픈AI는 창립 초기부터 안전하고 유익한 범용AI 개발을 목표로 설정했다.
 

   
▲ 미국의 오픈AI(OpenAI)가 문자를 동영상으로 변환해주는 인공지능(AI) 시스템인 ‘소라’(Sora)를 활용해 제작한 동영상. 오픈AI 누리집

소라를 만들기 위한 대가는?
오픈AI는 소라가 실제 세계를 이해해 여러 인물과 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 만들어낸다고 설명했다. 그리고 기존에 출시된 다른 영상 생성 AI와 다르게 하나의 영상에서 여러 장면을 생성해 인물과 장면을 구성하는 요소를 일관되게 유지할 수 있다.
오픈AI는 기술 보고서에서 소라의 기술 원리를 설명했는데 두 가지 아키텍처가 핵심이라고 밝혔다. 하나는 거대언어모델에 사용되는 트랜스포머고, 다른 하나는 확산(Diffusion)인데 주로 이미지 생성 모델에 사용된다. 오픈AI가 개발한 이미지 생성 모델 ‘달이’(DALL-E)와 업계에서 많이 사용하는 오픈소스 모델 ‘스테이블디퓨전’ (Stable Diffusion)도 확산 모델이다. 소라는 두 거대모델을 통합한 확산 트랜스포머(Diffusion Transformer) 모델이다.
소라가 출시되기 전에 피카(Pika)와 런웨이(Runway) 등 신생기업이 확산 모델을 기반으로 영상을 생성하는 기술을 선보였다. 그러나 영상 길이가 피카는 3초였고 런웨이의 베타 테스트 영상이 4초, 웹 버전으로 최대 18초였다. 소라가 생성한 영상은 60초다. 오픈AI는 확산 모델이 영상 콘텐츠 재현을 도울 수 있지만 제한이 많다고 지적했다. 시각적 데이터의 유형이 한정적이고 생성된 영상의 길이가 짧고 영상 크기도 고정돼 있는 것 등이다. 예를 들면 해상도가 256×256인 4초 분량의 영상만 가능하다.
소라도 확장 모델을 사용했지만 기존에 많이 보이던 U넷(U-Net) 아키텍처가 아닌 트랜스포머를 선택했다. 트랜스포머는 호환성이 강하고 다양한 규격의 시각적 데이터를 소화해 생성된 콘텐츠의 길이와 세부 정보를 늘릴 수 있다.
AI생성콘텐츠(AIGC) 기업 원더쉐어(Wondershare)의 주웨이 부사장은 “트랜스포머 아키텍처는 언어를 최소단위인 토큰(Token)으로 잘라서 제공하면 거대모델이 이런 토큰 사이의 관계를 학습해 논리적인 언어를 생성한다”고 말했다. 소라는 영상 분야에 이 방법을 적용해 각종 영상을 시각적 패치(Visual Pacthes)로 나눈 후 거대모델이 훈련하도록 제공한다. 트랜스포머 아키텍처에서 거대모델은 시각적 패치의 공간적, 시간적 논리 관계를 학습할 수 있다.
확산 모델에 트랜스포머를 결합하자 의외의 결과를 얻었다. 투입한 시각적 데이터가 고정된 상황에서 오픈AI가 훈련 모델의 연산능력을 늘리자 생성된 영상의 품질이 크게 개선됐다. 처음에는 임의로 형태가 변하는 솜털을 구현했는데 연산능력을 4배로 늘리자 모자를 쓰고 눈밭에서 뛰어노는 아키타견(일본의 대표 견종)의 영상을 만들었고 연산능력을 32배로 늘리자 털실 모자의 무늬와 강아지 다리에서 떨어지는 눈가루가 선명하게 보였다.

막대한 연산능력 유지비
“소라는 방대한 분량의 데이터와 대규모 매개변수, 막강한 연산능력으로 훈련한 결과다. 따라서 강력한 연산능력이 필요하다.” 주웨이 부사장은 “지금은 소라가 생성하는 영상이 최대 1분인데 영상의 길이가 늘면 난도가 기하급수적으로 올라가고 더 높은 일관성 과 더 상세한 화면 묘사가 요구된다”고 말했다. 따라서 지금보다 훨씬 많은 연산능력을 소모해 더 많은 자금이 필요하다.
왕창후 CEO는 “소라의 현재 수준을 구현하려면 AI 반도체 기업 엔비디아의 GPU A100나 A800, H100이 1천 개 이상 필요하고 다음 단계로 최적화하려면 1만 개가 필요해서 연산능력이 GPT3.5(1천 개)나 GPT4(1만 개)와 비슷하다”고 설명했다.
AI 기술 개발사 모보이(Mobvoi)의 리즈페이 CEO는 “언어와 이미지 분야 거대모델을 보면 오디오 데이터의 매개변수는 대략 천억(100B, 1B는 10억 개) 개 이상, 이미지 데이터는 조(1천B) 단위로 필요하고 영상 데이터는 10조 (1만B) 단위의 시각적 패치가 필요할 것”이라고 말했다. 이를 기준으로 계산하면 소라의 훈련 데이터가 수백만 시간에 달할 것으로 추정할 수 있다. 예를 들어 500만 시간의 영상 데이터를 훈련한다면 사용하는 데이터의 양이 유튜브가 9일 동안 송출하는 것과 비슷하다.
리즈페이 CEO는 연산능력을 기준으로 소라의 훈련비가 1천만달러 수준일 것으로 예상했다. 그는 “GPT 거대언어모델과 소라는 트랜스포머 아키텍처를 기반으로 하기 때문에 이론상 모델 매개변수가 같다면 단일 훈련의 연산량이 같아야 한다”고 말했다. 그는 “매개변수가 1천억 개 규모인 언어 모델을 훈련하려면 예산이 1천만달러 정도 필요한데 매개변수 규모가 비슷한 영상 모델 소라의 예산도 비슷할 것”이라고 덧붙였다. 다만 GPT 거대언어모델은 지난 1년 동안 최적화하면서 효율이 향상돼 비용을 절감했을 수 있다.
시장조사업체 가트너의 장퉁 애널리스트는 “오픈AI가 달이(DALL-E)와 GPT 시리즈를 통해 축적한 경험이 소라를 개발하는 과정에서 도움이 됐을 것”이라며 “챗지피티처럼 일반 사용자에게 공개하지 않은 것을 보면 연산능력을 유지하는 비용이 상당한 것을 알 수 있다”고 말했다. 그는 “소라를 최적화해 일반 사용자에게 공개해야 오픈AI의 기술이 새로운 단계에 진입해 기술 격차를 만들었다고 인정할 수 있다”고 말했다.
현재 소수의 시각예술가와 디자이너, 영화제작자, 인터넷보안전문가가 소라의 관련 리스크를 평가하고 있다. 일반 사용자에게 공개하는 시기에 관해 2024년 2월16일 오픈AI 공식 커뮤니티 관리자는 확정된 날짜가 없다고 밝혔다. 오픈AI는 공식 블로그 게시글을 통해 소라를 소개했고 논문은 발표하지 않았다.
물론 소라는 개선해야 할 부분이 많다. 오픈AI도 복잡한 장면의 물리적 관계를 정확하게 시뮬레이션하기 어렵고 인과관계를 이해하지 못한 사례가 있다고 인정했다. 예를 들어 사람이 쿠키를 한입 먹었는데 쿠키에 베어 먹은 자국이 없다던가, 사람이 러닝머신에서 뛰는데 방향을 찾지 못해 러닝머신과 반대 방향으로 뛰거나, 할머니가 촛불을 불었는데 촛불이 꺼지지 않는 것 등이다.

특수효과 분야가 가장 먼저 타격
오픈AI가 다른 이유로 소라를 서둘러 발표했을 수도 있다. “오픈AI는 이미 비영리단체가 아니라서 자금을 조달해야 하고 반도체, 인간형 로봇 등 다른 분야에 투자했다.” 장퉁 애널리스트는 “이 시점에서 오픈AI가 소라를 공개한 것은 자신의 능력을 보여줘서 더 많은 자금을 조달하기 위한 것 같다”고 말했다.
지난 1년 동안 오픈AI는 AI 관련 기업에 여러 차례 투자했다. 인간형 로봇 개발사 피겨AI와 1X테크놀로지스에 투자했고, 게임 및 디지털 제품 개발사 글로벌일루미네이션을 인수했다. <월스트리트저널>은 샘 올트먼 오픈AI CEO가 AI 반도체 생산시설을 만들기 위해 수조달러의 투자금을 모집하고 있다고 보도했다. 2024년 2월8일 올트먼은 소셜미디어 X(옛 트위터)에서 “대규모 인공지능 기반시설과 회복력 강한 공급망 구축은 경제적 경쟁력을 위해 중요하다. 오픈AI가 도움을 제공할 것”이라고 밝혔다.
한 소형 영화투자사 제작자는 “소라가 공개되자 영상도 AI로 대체되는 것을 피할 수 없다는 사실이 증명됐다. 업계에는 예전부터 수준 낮은 시나리오 작가가 있었고 그들의 작품은 인공지능으로 쓴 것과 큰 차이가 없다”고 말했다.
최근에 공개된 소라의 시연 영상을 보면 생성 속도가 빠르고 영상의 연속성과 카메라 이동이 실제 촬영한 것과 비슷하다. 촬영과 미술, 배우, 편집 등 여러 직종이 참여하는 영화업계에서 소라를 도입하면 세트를 제작하거나 교체하고 촬영 환경을 조성하는 데 필요한 시간을 단축하고 일부 촬영과 제작 단계를 대체할 것으로 예상된다. 한 중국 내 영화특수효과업체 책임자는 “소라의 등장으로 큰 충격을 느꼈다. 이렇게 빨리 기존의 예상을 깨뜨릴 것이라고는 생각하지 못했다. 어떻게 대응해야 할지 아직 잘 모르겠다”고 말했다.
문자 기반 영상 생성 기술이 발전하면 디지털 영상을 기반으로 하는 애니메이션과 특수효과 분야가 먼저 타격받을 것으로 보인다. 이 분야는 제작 문턱이 높고 진입 기간이 길어서 오랫동안 대형 제작사와 동영상 플랫폼에 집중돼 있었다.
소라가 시연 영상을 공개한 직후인 2월26일부터 <중국중앙텔레비전방송국>(CCTV)은 중국 최초로 문자 기반 생성 영상으로 제작한 애니메이션 <천추시송>(千秋詩頌)을 방영했다. 1부 ‘별동대’(别董大) 편의 시청률이 위성채널 애니메이션 분야 1위를 차지했다. 그 후 상하이영화유한공사의 자회사 상하이 애니메이션 필름 스튜디오가 ‘AI+애니메이션’ 창작을 추진할 것이라고 밝혔다. 텐센트비디오는 AI 도구를 이용해 <마유기>(魔游纪)의 특별판을 제작할 계획이다.
중국 동영상 공유 사이트 유쿠(Youku)에서 춘절 연휴 기간에 방영한 사극 <대당적공안>(大唐狄公安)은 AI 도구를 사용한 특수효과를 도입했다. 그동안 중국에서 완벽하게 고증된 당나라 시대 장안성(長安城)의 실물 촬영장은 없었다. 또한 기존의 특수효과는 화면 전환의 정밀도와 연속성이 제작진이 요구하는 수준에 도달하지 못했으며 제작 기간도 오래 걸렸다. 유쿠는 드라마에 나오는 장안성을 ‘AI+디지털 자산’의 방식으로 생성해 기존에 한 달 걸리던 작업 기간을 열흘로 단축했고 작업효율이 70% 가깝게 향상됐다고 밝혔다.

ⓒ 財新週刊 2024년 제11호
Sora再進階
번역 유인영 위원

 

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.

  

두즈항의 다른기사 보기  
ⓒ Economy Insight(http://www.economyinsight.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     
전체 기사의견(0)  
 
   * 300자까지 쓰실 수 있습니다. (현재 0 byte/최대 600byte)
   * 욕설이나 인신공격성 글은 삭제합니다. [운영원칙]
매체소개 구독신청 구독문의기사문의개인정보취급방침청소년보호정책 이메일무단수집거부찾아오시는 길
한겨레신문(주) | 제호 : 이코노미 인사이트 | 등록번호 : 서울 아 01706 | 등록일자 : 2011년 07월 19일 | 발행일 : 2011년 07월 19일 | 발행인 : 최우성 | 편집인 : 박종생
발행주소 : 서울특별시 마포구 효창목길 6 (공덕동, 한겨레신문사) | 한겨레 고객센터 1566-9595 | 청소년보호 책임자 : 박종생
한겨레신문사 All rights reserved 무단 전재, 재배포, AI 학습 및 활용 금지