[커버스토리] 활발한 창업… GPU·데이터 부족

홈 > 뉴스 > 커버스토리

활발한 창업… GPU·데이터 부족

[COVER STORY] AI 2.0 시대 GPT 각축전- ② 중국 상황

[158호] 2023년 06월 01일 (목)

두즈항

economyinsight@hani.co.kr

두즈항 杜知航 장얼츠 張而馳 취윈쉬 屈運栩 류페이린 劉沛林
구자오웨이 顧昭瑋 <차이신주간> 기자


▲ 2023년 4월 열린 ‘알리바바 클라우드 서밋’(阿里雲峰會)의 이미지. 거대 AI 모델 개발에서 바이두에 필적할만한 알리바바는 이날 챗지피티와 유사한 제품을 공개했다. 알리바바 누리집

2023년 2월8일 알리바바도 챗지피티와 비슷한 제품을 개발해 자사 기업용 메신저 딩딩(頂頂, Dingtalk)에 설치했다고 밝혔다. 알리바바는 4월11일 열린 ‘알리바바 클라우드 서밋’(阿里雲峰會)에서 이 제품을 공개했다. 중국 대형 정보기술기업 가운데 알리바바는 거대 AI 모델 분야에서 바이두에 필적할 만한 유일한 기업이다. 2021년 4월 알리바바 다모아카데미는 ‘중문판 지피티-3’라고 불리는 거대 언어모델 PLUG를 공개했다. 매개변수가 270억 개였다.
알리바바의 멀티모달 AI 모델 M6는 매개변수가 2021년 10월 10조 개에 이르렀다. 알리바바는 2022년 항저우에서 열린 개발자 행사 압사라 콘퍼런스(雲栖大會)에서 중국어 AI 모델을 위한 오픈소스 커뮤니티 모델스코프(ModelScope)를 공개했다. 다모아카데미는 검증을 마친 300개 이상의 AI 모델을 모델스코프에 제공했다. 3분의 1 이상이 완전한 오픈소스형 중국어 모델이었다.
다모아카데미 관계자는 “AI가 다모아카데미의 핵심 부서다. 직원 3분의 2가 일한다. 다시 말해 1500명 가운데 1천 명이 AI를 개발한다”고 소개했다. 실리콘밸리 투자자에 따르면 알리바바는 거대 AI 모델 개발을 전폭적으로 지원한다. 다모아카데미에 GPU 500개를 배정했다. 당시로선 상당히 큰 규모였다. 하지만 1년 전까지만 해도 거대 AI 모델의 중요성과 AI 2.0 시대의 도래를 인식하도록 일깨우는 사람이 없었다.
저우징런 다모아카데미 부원장이 거대 AI 모델 개발팀을 이끌었다. 바이두의 왕하이펑 최고기술책임자와 마찬가지로 저우징런도 마이크로소프트에서 근무했다. 2016년 알리바바클라우드 수석과학자로 부임해 클라우드, 타오바오, 알리페이(支付寶)의 검색·추천·광고 등 데이터 사업을 맡았다.

상당한 격차
오픈AI가 AI 모델 개발에 집중한 것과 달리 바이두와 알리바바는 기회를 선점해 시장을 독식하겠다는 야심을 가졌다. 리옌훙 바이두 최고경영자는 “AI 시대의 정보통신(IT) 기술은 반도체·프레임워크·모델·응용 계층으로 이루어진다”며 “바이두는 4개 계층의 기술을 전부 개발했다”고 말했다. AI 반도체 쿤룬(昆侖), 딥러닝 프레임워크 페이장(飛槳, PaddlePaddle), 사전학습 거대 AI 모델 원신, 그리고 검색·클라우드·자율주행·AI 스피커 샤오두(小度) 등이다. 알리바바도 비슷하다. AI 반도체 한광(含光)800을 개발했다. GPGPU(GPU의 범용 연산) 기술의 테이프아웃(Tape-out, 설계완료)을 마쳤다. 분산식 훈련 프레임워크 EPL(Easy Parallel Library)과 AI 모델 M6, 딩딩·알리바바클라우드 등이 있다.
알리바바와 바이두는 오픈AI와 상당한 격차가 있음을 인정한다. 오픈AI는 업계 선두 주자다. 2018년 6월에 1세대 거대 언어 모델인 지피티를 출시했고 몇 해 동안 범용 AI 분야에만 주력했다. 중국에서 확보하는 데이터의 품질이 외국에 미치지 못하는 데도 원인이 있다. 달러 펀드 투자자는 “데이터 세트에서 미국은 중국보다 크게 앞섰고 유형별로 분류된 공개 데이터 세트를 사용해 AI를 훈련할 수 있다”고 말했다.
중국에는 중국어로 된 말뭉치와 이미지 자료가 모자란다. 개발업체가 직접 데이터를 정제해야 하므로 많은 시간과 인력이 필요하다. “중국의 거대 AI 모델이 업무량을 줄이기 위해 미국의 데이터 세트로 훈련해, 결과도 외국 AI에 가깝게 나온다. 훈련에 사용한 데이터 세트에 따라 결과물이 달라진다.”


▲ 거대 AI 모델 개발에 필수적인 엔비디아의 A100 GPU. 미국은 2022년 10월 A100과 더 높은 사양의 GPU 수출을 제한해 중국 기업들이 기술 개발에 어려움을 겪고 있다. 엔비디아 누리집

조용한 텐센트·바이트댄스
바이두가 원신이옌을 공개한 뒤 사용자들의 원성과 비판이 쏟아졌다. 텍스트를 이미지로 변환하려면 먼저 명령어를 영어로 번역해야 했다. 중국어 사자성어와 음식 이름도 이해하지 못했다. 업계 관계자들은 “원신이옌이 진정한 멀티모달 거대 AI 모델이 아니고 거대 언어 모델과 텍스트 이미지 변환 모델을 결합한 것일 뿐”이라고 평가했다.
바이두와 알리바바에 견줘 텐센트는 거대 AI 모델 경쟁에서 초연한 편이다. 2023년 3월22일 텐센트는 2022년 4분기 실적을 발표했다. 류츠핑 총재는 “앞으로 많은 자원을 투입해 기초 기술을 개발하고 생성형 AI를 소셜미디어, 광고, 게임, 클라우드컴퓨팅 등 여러 분야에 응용할 계획이지만 서두르지 않겠다”고 밝혔다. “챗봇은 미래의 여러 제품 중 하나다. 서둘러 해결해야 할 위협이 아니라 장기적 성장 기회라고 생각한다.”
위챗과 기술엔지니어부문(TEG) AI 실험실 등 여러 부서에 흩어져 있던 텐센트의 AI 역량을 최근 통합하기 시작했다. 거대 AI 모델 훈위안(混元)을 기반으로 챗지피티와 비슷한 제품을 만들 계획이다. 텐센트 관계자에 따르면 그동안 텐센트클라우드가 인프라를 만들고 시스템 통합을 추진하려는 계획을 버리고 기업에 데이터베이스를 포함한 제품을 판매하는 방향으로 전환했다. 하지만 거대 AI 모델이 나온 뒤 인프라 서비스를 포기할 수 없게 됐다. 텐센트는 바이두클라우드가 거대 AI 모델로 자사를 추월할 가능성도 우려한다. “텐센트클라우드와 스마트산업 부문 탕다오성 최고경영자가 5개월 안에 제품 개발을 끝내도록 지시했다. 제품 내부 테스트를 거쳐 연말에 출시해야 한다는 뜻이다.”
바이트댄스도 조용히 움직이고 있다. 대형 정보기술기업 가운데 바이트댄스가 짧은 동영상과 콘텐츠 배급 등 주요 사업의 콘텐츠 생성 관련성이 가장 높지만, 관련 기술을 가장 적게 축적했다. 더우인과 틱톡에 적용하길 기대하면서 두 팀이 AI 모델 개발을 맡았다. 알리바바에서 M6 모델 개발을 도왔던 양훙샤의 팀이 거대 언어 모델, 다른 팀이 오디오와 비디오를 개발한다.
새로운 AI 경쟁에서 누가 최후의 승자가 될까? 거대 AI 모델은 먼저 자사 업무, 그다음 응용 분야와 결합해야 한다. 업계 관계자들은 “위챗과 더우인이 최적의 AI 생성 콘텐츠(AIGC) 응용 서비스가 될 것”이라고 말한다. 중국 AI기업 창업자는 “얼마 전 장이밍 바이트댄스 창업자를 만났다”며 “바이트댄스가 거대 AI 모델을 개발할 것”이라고 말했다. “장이밍이 거대 AI 모델을 깊이 이해하고 있었다. 바이트댄스에 1500명 규모의 알고리듬 개발팀이 있다.”
바이트댄스의 추천 알고리듬은 딥러닝에 기반한 대형 인공지능 모델에 의존한다. 앞으로 반도체 공급이 부족해지면 바이트댄스의 국외 서버가 강점을 발휘할 것이다. 그러나 달러 펀드 투자자는 “다른 정보기술기업의 성장세가 주춤한 것과 달리 바이트댄스는 고속성장을 지속했다”며 “인력과 보유한 GPU를 각종 응용프로그램에 투입했기에 거대 AI 모델을 개발할 여력이 없다”고 지적했다.

창업 행렬
설 연휴가 지난 뒤 AI 분야 인재들이 대형 정보기술기업을 떠나 지피티 창업 물결에 합류했다. 기술 분야 투자자에 따르면 자본시장에서 선호하는 창업자의 배경이 오픈AI, 마이크로소프트, 구글에서 마이크로소프트(중국) 아시아연구원과 칭화대학으로 바뀌었다. 실질적으로 움직일 수 있는 인재는 대형 정보기술기업의 AI 책임자다. AI 1.0 시대에는 기업이 대학에서 인재를 발굴하거나 외국에서 데려왔다. 그들은 논문을 발표해 대기업의 ‘얼굴’이 되거나 AI 모델을 만들고 응용서비스에 적용했다. “오픈AI의 성공이 그들을 자극했다. 자본투자가 잇따르자 창업을 선택했다.”
리무 아마존 수석과학자는 2023년 2월 퇴사하고 지도교수를 따라 창업했다. 범용 AI 모델을 개발하는 보손(Boson)이다. 아마존도 5월 거대 AI 모델을 내놓기 위해 총력을 기울인다. 자양칭 알리바바 부총재도 3월 퇴사했다. 구글에서 페이스북, 다시 알리바바로 자리를 옮겼던 그는 퇴사 직후 창업했다. 박사과정에서 연구했던 AI 프레임워크가 주요 사업 방향이다.
투자자들이 주목하는 퇴직자 명단에 이름이 계속 추가됐다. 왕창후 바이트댄스 시각기술 책임자, 리옌 콰이서우 짧은 동영상 검색시스템 책임자도 3월 퇴사 소식을 알렸다. 왕샤오촨 써우거우(搜狗) 창업자는 왕후이원처럼 재창업에 도전해 우지즈넝(五季智能)을 설립했다. 자본금이 500만위안이었다. 왕샤오촨의 동료이자 써우거우 입력법을 개발한 마잔카이는 광녠즈와이에 합류했다. 왕후이원은 AI 인프라와 알고리듬을 맡을 공동창업자 두 사람을 찾았다. “우리의 기술 도구로 거대 AI 모델을 구축할 수 있다. 경쟁 상대는 대기업의 오픈소스 솔루션이다. 사실 직원이 너무 많을 필요 없다. 100명이면 충분하다.”


▲ 2020년 9월 중국 광둥성 선전의 텐센트 본사에서 직원이 클라우드서비스를 소개하고 있다. 텐센트는 거대 AI모델 경쟁에서 바이두·알리바바보다 덜 적극적이다. REUTERS

두 번째 봄
챗지피티가 성공하자 지난번 AI 투자 열풍의 주역이었던 컴퓨터 비전 기업이 활기를 되찾았다. 양판 센스타임 공동창업자는 2023년 3월 중국 베이징에서 여러 AIGC 관련 회의에 참석해 센스코어(SenseCore) AI 인프라를 소개했다. “센스타임이 만드는 것은 ‘받침대’다. 다른 대기업과 마찬가지로 응용 기업에 AI 인프라를 제공하는 것이 목표다.” 인치 메그비 최고경영자는 “경제적인 중국식 소형 모델을 만들면 거대 AI 모델에 밀려 뒤처질 수밖에 없다”고 강조했다.
시장에서는 거대 AI 모델을 개발해야 한다는 의견이 지배적이다. 또 기술의 난이도와 핵심기술 개발의 중요성을 충분히 인식하고 있다. 메그비는 현재 물류 로봇과 레벨2 수준의 자율주행 분야에 주력한다. 하지만 거대 AI 모델을 개발할 인력과 하드웨어를 갖췄다. 최근 기업공개(IPO)의 마지막 절차를 진행하고 있다. 조달한 자금을 인공지능 경쟁에 투입할 계획이다.
AI 네 마리 용에 속하는 다른 기업인 클라우드워크는 낙관적이다. 2023년 1월 말 클라우드워크는 “중국의 연산능력과 데이터 규모가 미국과 큰 차이가 없다”고 주장했다. “앞으로 파운데이션 모델을 기반으로 모델을 훈련하고 학습을 강화해 전문 분야의 모델을 구축하면, AI 핵심기술을 확보하고 산업 현장을 이해하는 기업에 새로운 생태계를 구축할 기회가 생길 것이다.” AI 정책 결정과 기업의 디지털 전환을 지원하는 기업 포패러다임(4Paradigm, 第四範式)은 응용 계층과 모델 계층 사이의 도구가 되겠다는 목표를 설정했다.
컴퓨터 비전 개발 기업은 지난 몇 년 동안 자금조달 혹한기를 겪었다. 그래서 챗지피티 등장을 분위기 전환을 위한 절호의 기회로 여긴다. 알파고로 시작된 AI 창업 열풍 속에서 성장한 이들은 2015년 전후 투자자들의 환영을 받았다. 하지만 2019년 시장조사업체 가트너가 정의한 ‘죽음의 계곡’(신기술이 성숙한 생산 단계에 도달하기 전에 거품이 꺼지는 시기)에 빠져 여러 해 동안 적자를 기록했다. 투자자들은 열정을 잃고 다시 쳐다보지 않았다.
AI 비전 기업은 아직 산업 전반에 적용할 수 있는 제품을 만들지 못했다. 양판은 과거를 회상하면서 “사용자 수요에 부응하는 데 비용이 너무 많이 들었다”고 말했다. “새로운 응용프로그램을 개발할 때마다 데이터를 수집하고 알고리듬을 구축해야 한다. 어떤 것은 전국 고객사가 3~5개에 불과해 사업모델의 한계가 분명했다.” 하지만 지피티-3, 지피티-4, 달이2, 스테이블 디퓨전(Stable Diffusion), 챗지피티 등 거대 AI 모델은 일반인도 이해하고 상상할 수 있는 적용 사례와 확장 가능한 응용 시나리오를 제공한다.
2023년 설 연휴가 끝나고, 특히 왕후이원의 창업 소식이 알려진 뒤 시장에서는 센스코어 AI 인프라에 관심이 커졌다. 센스타임에 따르면 센스코어 AI 인프라는 GPU 2만7천 개를 배치해 연산속도가 5엑사플롭스(exaFLOPS·초당 100경 회 계산)에 이른다. 매개변수가 1천억 개가 넘는 거대 AI 모델을 최대 20개까지 동시에 훈련하도록 하고, 1조 개의 초거대 모델 훈련도 지원할 수 있다. 지금까지 언어, 이미지 생성, 시각, 멀티모달 등 10개가 넘는 거대 AI 모델의 훈련을 지원했다. 8개 고객사가 지금도 훈련을 진행하고 있다. 모두 7천 개가 넘는 GPU를 제공했다. 서비스형 인프라(IaaS)와 플랫폼(PaaS), 모델(MaaS)을 포함한다. 양판은 “문턱이 낮고 비용이 싼 AI 인프라 제공자가 되길 바란다”며 “응용 개발사가 이를 기반으로 고객과 제품을 개발할 수 있을 것”이라고 말했다.
하지만 시장에는 이들 AI 네 마리 용이 거대 AI 모델을 만들 수 없을 것이라는 회의적 시각도 있다. 자금력이 부족해 거대 AI 모델의 유지비를 감당하기 힘들다. 또 컴퓨터 비전과 AI 2.0의 자연어 처리 등은 서로 방법이 다르고 기술 격차가 크다.


▲ 오픈AI 대주주인 마이크로소프트(MS)의 업무 생산성 도구 코파일럿(Copilot) 홍보 화면. MS는 최근 지피티-4의 기능을 검색엔진 빙, 오피스프로그램 등과 통합했다. MS 누리집

회의적 시각
메그비는 아직 거대 AI 모델 개발에 들어가지 않았지만, 인치 최고경영자는 이런 관점에 동의하지 않는다. “컴퓨터 비전과 자연어 처리 기술은 모두 트랜스포머 모델(문장 속 단어와 같은 순차 데이터 내부의 관계를 추적해 맥락과 의미를 학습하는 신경망)에서 출발했다. 기업이 거대 AI 모델을 개발할 수 있을지 판단하려면 엔비디아 A100 GPU 1만 개로 클러스터를 만드는 능력을 갖췄는지부터 확인해야 한다. 지피티 거대 AI 모델 개발에 A100가 적어도 1만 개 필요하다. 중국에서 현재 거대 AI 모델 훈련에 투입할 수 있는 A100은 겨우 4만 개다. 반도체 확보가 끝이 아니다. 거대 AI 모델 개발에 필요한 기술 스택(언어·프레임워크·데이터베이스·운영체제·툴 등의 집합체)이 길다. 반도체칩의 미세한 오류만 쌓여도 개발 작업이 실패로 돌아갈 수 있다. 중국에는 GPU 1만 개 규모의 연산시스템을 운영할 수 있는 기업이 없다.”
양판에 따르면 거대 AI 모델을 개발하기 위해선 하드웨어, 알고리듬, 데이터 세 분야에서 전문 경험을 쌓고 자금과 설비 등을 확보해야 한다. 이것 또한 입장권을 보유한 데 지나지 않는다. 출처와 품질이 좋은 데이터가 필요하고 훈련법도 연구해야 한다. 같은 데이터 세트라도 선택에 따라 훈련 결과가 달라진다. 오픈AI는 이 분야에서 많이 노력했다. GPU의 병렬처리 훈련 경험도 중요하다. 양판은 “많은 GPU를 병렬로 연결한 뒤 끊임없이 방법을 조율하고 연산효율을 높여야 한다”고 말했다. 현재 센스타임의 GPU 1천 개 규모 클러스터는 이용 효율이 90%에 이른다.
많은 GPU가 장시간 안정적으로 작동할 때까지 시행착오를 많이 겪어야 한다. 양판은 “거대 AI 모델을 훈련할 때 가중치에 따른 결과값의 기울기가 계속 증폭되는 ‘기울기 폭발’(Gradient Exploding)이 발생하거나 하드웨어 고장으로 기기 작동이 중단된다”며 “과거에는 10분에 한 번씩 작동을 멈췄다”고 말했다. 지금은 일주일에 한 번씩 그런 일이 발생한다. 이것도 부단히 노력한 결과다.

ⓒ 財新週刊 2023년 제14호
逐鹿GPT
번역 유인영 위원

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.