> 뉴스 > 시각
     
“창작물 도둑질로 삶 뺏어” 작가·언론사 잇단 소송
[ANALYSIS] AI 훈련에 데이터 무단 사용
[168호] 2024년 04월 01일 (월) 요하나 위르겐스 economyinsight@hani.co.kr

 
테크 대기업들은 짐볼로 재활치료를 받는 어르신들의 사진으로 자체 인공지능(AI)을 훈련했다. 해당 사진을 찍은 작가는 이를 전혀 모르고 있다가 최근 저작권 침해 소송을 제기했다.

요하나 위르겐스 Johanna Jürgens <차이트> 기자
 

   
▲ 사진작가 로베르트 크네슈케는 자신의 사진으로 생성형 인공지능(AI)이 훈련해도 되는지 법원의 판결을 받으려 2023년 4월27일 독일 함부르크 주법원에 소송을 제기했다. 유튜브 갈무리

인공지능(AI)이 공상과학에 불과했던 13년 전, 사진작가로 잘나가던 로베르트 크네슈케는 자신의 지식을 다른 사람과 공유하기로 마음먹었다. 사진작가에게는 어떤 장비가 필요하며, 사진은 어떻게 편집하고 유통되는지 등의 내용을 담은 그의 책 <스톡사진: 사진 찍어 돈 벌기>는 차세대 사진작가의 입문서가 됐고, 독일 사진출판상 후보에 오르기도 했다. 하지만 사진작가 사이에서 바이블로 통하는 이 책도 이제는 시대에 뒤떨어진 듯하다. 앞으로 사진으로 돈 버는 일이 점점 어려워질 것으로 보이기 때문이다.
크네슈케가 활동하는 사진 시장은 지속적인 수요가 있다. 크네슈케는 스톡사진 작가다. 그에게는 사진 촬영을 의뢰하는 사람이 따로 있지 않다. 그는 시장에서 잘 팔리는 사진을 찍어 판매한다. “이런 면에서 나는 예술가라기보다 서비스업자에 가깝다.” 셔터스톡에만 그의 사진 6만7357장이 올라와 있다. 환자와 대화하는 의사, 재활운동 중인 어르신, 양복 차림의 남성 사진이 베스트셀러다.
크네슈케의 사진을 찾는 고객은 홍보업체, 보험상품이나 금융상품을 홍보하는 대기업 커뮤니케이션 부서다. 그가 찍은 사진의 모티브가 다양할수록 그가 받는 사진 이용료는 늘어난다. 다만 얼마나 더 오랫동안 이런 사업모델이 유지될지는 의문이다. 그사이 등장한 AI가 크네슈케 같은 사진작가들과 비슷한 수준으로, 더 신속하고 저렴하며 정확하게 사진을 만들어내기 때문이다.
 

   
▲ 누구든 무료로 이미지 데이터세트에 접근할 수 있도록 한 크리스토프 슈만을 두고 <블룸버그> 통신은 AI의 미래가 고등학교 교사인 슈만의 데이터세트에 달렸다고 최근 보도했다. 블룸버그 누리집

AI, 사진작가 설 자리 위협
크네슈케는 2024년 1월 자택에서 <차이트> 취재진을 맞이했다. 집에는 조그마한 사진 스튜디오가 마련돼 있다. 그는 소파에 편안한 자세로 앉았다. <차이트> 인터뷰 주제는 그가 2023년 4월27일 함부르크 주법원에 제기한 소송에 관한 것이다. 그는 자신의 사진으로 생성형 AI가 훈련해도 되는지, 자신의 사진으로 학습한 생성형 AI가 결국 자신의 경쟁자가 되는 현실을 받아들여야 하는지 법원의 판결을 받으려 한다.
크네슈케가 동료 사진작가를 통해 이미지 58억 개 이상을 보유한 ‘레이온(LAION)-5B’라는 AI 훈련용 데이터세트를 처음 본 것은 2023년 봄이었다. 비영리단체 레이온이 데이터세트를 프로그래머들의 플랫폼에 올렸고, 지금도 누구나 데이터세트의 데이터를 내려받을 수 있다. 데이터세트에 업로드된 이미지 58억 장으로 AI는 훈련하고 이미지를 생성한다.
데이터세트 레이온-5B를 본 크네슈케는 이곳에 자신의 사진도 올려졌는지 궁금했고, 검색 결과 자신의 사진 10여 장이 업로드된 사실을 확인했다. 당시 그는 자신을 언젠가 대체할 수 있는 기술이 역설적으로 자신의 사진으로 훈련받고 있다고 생각했다. “레이온 쪽이 내 사진을 써도 되는지 사전에 물어야 했고, 나는 당연히 사진 사용료를 요구했을 것이다.”
AI가 점점 더 많은 과제를 해결할 수 있는 데는 두 요인이 주요했다. 첫째, 불과 몇 년 전과 비교해 정보를 더 신속하게 가공할 수 있는 컴퓨터 성능이다. 둘째, 코커스패니얼(사냥·반려용 개)의 사진, 하인리히 하이네의 시, 비슷하게 생긴 자몽과 오렌지 사진 등 인터넷에서 퍼온 엄청난 데이터 양이다.
지금까지 프로그래머들은 사용료를 내지 않고 데이터세트에 업로드된 사진으로 각자 AI 프로그램을 훈련했다. 이렇게 미드저니(Midjourney), 달리(Dall-E), 스테이블디퓨전(Stable Diffusion) 등 생성형 AI가 탄생했다. 이들 프로그램이 생성하는 것은 마치 ‘하늘 아래 새로운 것은 없다’는 말처럼 어디에선가 한 번은 본 듯한 느낌을 자아낸다. 거대 규모의 생성형 AI 시장이 형성되면서 소설, 사진, 그림 등으로 생성형 AI가 훈련받는 것을 놓고 지식재산권 침해 논란이 불거졌다. AI가 매일 무한대로 생성하는 이미지와 텍스트 저작권은 누구에게 귀속되는지 논란도 격화했다.
이 논란은 미국과 유럽의 법원으로 옮아갔다. <뉴욕타임스>는 2023년 12월 오픈에이아이(OpenAI)와 마이크로소프트 등 AI 도구 개발 기업을 저작권 침해로 고소했다. 두 기업이 사전 동의 없이 AI 학습을 위해 <뉴욕타임스>의 기사 콘텐츠를 무단으로 썼다는 것이다. 2023년 2월 영국과 미국에서, 이미지 판매 업체 게티이미지(Getty Images)는 스테이블디퓨전 개발사인 스태빌리티AI(Stability AI)에 소송을 제기했다. 스테이블디퓨전이 게티이미지의 사진 1200만 장으로 학습했다는 것이 소송 이유였다. 스테이블디퓨전이 생성하는 사진에 게티이미지의 워터마크가 찍혀 있었다. 이와 유사한 법정 다툼은 수없이 많고, 지식재산권 침해와 무단복제는 소송의 근거가 됐다.
크네슈케는 레이온-5B 개발자들에게 데이터세트에서 자신의 사진을 삭제해달라고 요청하는 전자우편을 보냈다. 하루 뒤 한 로펌에서 레이온-5B는 저작권법을 위반하지 않았으며, 사진을 저장하는 것이 아니므로 어차피 삭제할 것도 없다는 내용의 답신이 날아왔다. 크네슈케는 로펌의 답신을 액면 그대로 받아들일 생각이 전혀 없었다. 그는 헬스클럽과 재활치료센터에서 인기가 많은, 짐볼로 재활운동 중인 사람 사진을 대상으로 일단 법원에 가처분신청을 냈다. 이 사진 건에서 승소하면, 그는 데이터세트에 업로드된 자신의 다른 사진도 가처분신청을 할 생각이다. 2024년 4월에 시작할 재판은 독일 법정에서 이뤄지는 AI 훈련 자료의 저작권을 둘러싼 최초의 재판이다. 독일에서 다른 AI 프로그램에도 영향을 미칠 선례가 될 것이다.
크리스토프 슈만은 크네슈케의 반대 지점에 서 있는 사람이다. 슈만은 AI 주제가 나올 때면 열정적으로 이야기를 늘어놓는다. 그는 인사를 끝내자마자 바로 자신이 지금 무언가 새로운 것을 작업 중이라고 설명했다. 노트북에서 인터넷에 접속하지 않고도 연결되는 AI 음성 비서 프로그램을 구축 중이라고 했다.
2년 전 데이터세트 레이온-5B를 공개한 뒤 슈만팀은 대표적인 테크 대기업과 어깨를 나란히 하고 있다. 구글은 자체 AI 모델을 레이온-5B 데이터세트로 훈련했고, 전세계에서 가장 인기 있는 이미지 생성형 AI인 미드저니와 스테이블디퓨전도 레이온-5B로 훈련했다. 미국 뉴올리언스에서 열린 머신러닝 분야의 세계 최대 학회 뉴립스(NeurIPS)에서 슈만팀은 지금까지의 연구 업적을 인정받아 상을 받는 영광을 누렸다. <블룸버그> 통신은 AI의 미래는 슈만의 데이터세트에 달렸다고 최근 보도했다.
 

   
▲ 이미지 생성형 AI인 스테이블디퓨전이 만들어낸 이미지. 스테이블디퓨전도 레이온의 데이터세트로 학습했다. 스태빌리티AI 누리집

레이온 설립한 이유
슈만은 그의 데이터세트로 수익을 남기고 있지는 않다. 그는 함부르크의 한 김나지움(독일 중등교육기관)에서 물리학과 정보학을 가르치는 공무원 신분의 교사다. 육아나 컴퓨터게임을 하지 않는 여가 시간에 AI 연구에 매진한다. 그가 AI 연구를 위해 설립한 단체 ‘Large-scale AI Open Network’는 약칭 레이온(LAION)으로 불린다.
슈만은 두 시간 정도 짬을 내어 그가 일하는 학교 인근 쇼핑몰에서 <차이트> 취재진과 인터뷰했다. 그는 핫초코를 마시며 자신이 현재 개발 중인 AI 음성 비서 프로그램을 들려줬다. “모든 어린이가 자신만을 위한 똑똑한 선생님을 가질 수 있다면 얼마나 좋을까요?”
그는 몇 년 전 AI 기술이 불과 몇 초 사이에 텍스트를 이미지로 생성하는 것을 보면서, 이 기술이 일상 곳곳에 스며들 것이라 직감했다. 그리고 “이 기술은 구글이나 오픈AI 등 소수 대기업의 전유물이 되면 안 되고, 누구나 AI를 연구하고 자체 프로그램을 개발할 수 있어야 한다”고 생각했다. 특히 미국과 중국 대기업의 AI 기술에 의존하는 유럽연합에서 말이다. 하지만 유럽에는 AI 훈련용 사진 수백만 장을 보유한 생성 AI 도구가 없지 않은가.
슈만은 온라인포럼에서 자신과 같은 생각을 하는 사람들을 만났다. 그중에는 영국 출신의 15살 남학생과 게이밍 컴퓨터 성능의 연산능력을 제공하겠다고 나선 루마니아 부쿠레슈티 출신의 남성도 있었다. 이들은 함께 AI 훈련 데이터를 수집해 대중에게 공개하기로 했다. 먼저 인터넷에서 특수 소프트웨어를 사용해 텍스트 형태의 사진 설명이 있는 사진을 수집했다. 그리고 이런 이미지와 텍스트로 AI를 훈련했다. 몇 주 뒤 300만 개에 이르는 사진-그림 세트가 구축됐다. 3개월 뒤에는 400만 세트가 됐다. 보유한 이미지 개수가 58억 개를 돌파하자, 레이온-5B는 전세계적으로 해당 업계의 주목을 받았다.
데이터세트는 일종의 거대한 카탈로그로 이해하면 된다. 데이터세트에는 사진뿐만 아니라 해당 사진이 포함된 링크 모음집도 저장됐다. 데이터세트의 고객은 소셜미디어, 이미지 에이전시, 뉴스 사이트 등이 있다. 대기업이나 독립 개발자 등 누구나 레이온-5B에 접속해 이미지를 내려받을 수 있다. 이는 훈련 데이터를 기밀로 하는 오픈AI 같은 기업과 대조되는 지점이다. 하지만 데이터세트는 이 투명성 탓에 외부 공격에 한층 취약하다.
크네슈케와 레이온 간의 분쟁은 근본적으로 두 세계관의 충돌이다. 모든 정보는 누구에게나 무료로 개방돼야 한다는 세계관과 음악가·작가·사진작가 등 저작권자들의 권리와 경제적 이해관계를 보호해야 한다는 세계관의 대립이다. 이를 둘러싼 분쟁의 역사는 AI 자체보다 더 오래됐고, 사법부는 지난 수십 년 동안 관련 판결을 내렸다.
독일 법에는 저작권자의 사전 동의가 없는 작품 무단 사용 금지에 관한 예외 규정이 있다. 예를 들어 텍스트와 데이터를 내려받아 분석하고 관련성을 파악하기 위한 학술적 용도에 한해서는 예외가 인정된다. 레이온 쪽 변호사들은 바로 이 규정을 근거로 내세운다. 레이온은 이미지를 임시로 내려받지만 전적으로 연구 목적이라는 것이다. 이런 논리라면 크네슈케는 레이온-5B로 AI 모델을 훈련하는 기업에는 소송을 걸 수 있지만 데이터세트 운영 업체에는 소송을 걸 수 없다.
 

   
▲ 비영리단체 레이온(LAION)은 누리집에서 이미지 데이터세트 ‘레이온-5B’를 소개한다. 레이온 누리집

저작권 예외 적용될까
크네슈케는 레이온의 공공성에 의문을 제기하면서, 영국 AI 스타트업인 스태빌리티AI와의 연관성을 근거로 제시한다. 실제 스태빌리티AI 설립자는 슈만팀에 컴퓨터 연산능력을 무상으로 제공했다. 그 반대급부로 스태빌리티AI는 레이온의 소프트웨어를 가장 먼저 사용할 수 있었다. 슈만은 스태빌리티AI의 연산능력 없이도 데이터세트를 구축할 수 있었지만 오래 걸렸을 것이라고 말한다.
함부르크 주법원은 저작권 예외 규정이 레이온에도 적용될지 판결을 내려야 한다. 크네슈케의 사진을 업로드한 인터넷 사이트 업체가 다운로드 금지 조항을 이용약관에 명시해야 했는지, 기업에 후원금을 지원받는 연구활동을 독립적이라고 볼 수 있는지 판결해야 한다. 반면 사법부 판결은 훈련용 데이터의 공정한 라이선스 계약과 관련한 구체적인 가이드라인은 제시하지 않을 것이다. 스트리밍 서비스에서처럼 클릭할 때마다 이용료를 받아야 할까? 아니면 라이선스 수수료 형식으로 한번에 받아야 할까? 그렇다면 얼마가 적당할까?
미드저니의 창업자 데이비드 홀츠는 수백만 명의 저작권자를 모두 찾아내기란 불가능하다고 지적했다. 메타(옛 페이스북) 쪽도 이와 유사하게, AI 훈련 모델에 필요한 모든 데이터의 라이선스를 획득하기란 불가능하다고 밝혔다. 이는 자신이 필요로 하는 것보다 훨씬 더 많은 금액을 지급할 수 없다는 뜻이기도 하다. 교사이자 AI 개발자인 슈만은 과도한 규제를 경고했다. 과도한 규제는 결국 규정을 피해갈 재정 여력이 있는 대기업의 독점만 강화할 것이라고 경고한다.
자신의 사진 사용에 얼마나 받아야 만족할 수 있는지 묻자 크네슈케는 쉽게 답하지 못했다. 그런데 레이온-5B와 법정 소송 중인 크네슈케는 얼마 전부터 AI로 생성한 이미지를 직접 판매했다. 물론 AI 생성 사진의 저작권이 그에게 귀속될지는 불명확하다. 이에 대해서도 언젠가는 법원이 판결할 것이다. 크네슈케는 법원 판결이 나오기까지 일단 AI 기술로 조금이나마 혜택을 받을 생각이다.

ⓒ Die Zeit 2024년 제8호
Rentner helfen Rechnern
번역 김태영 위원

 

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.

  

요하나 위르겐스의 다른기사 보기  
ⓒ Economy Insight(http://www.economyinsight.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     
전체 기사의견(0)  
 
   * 300자까지 쓰실 수 있습니다. (현재 0 byte/최대 600byte)
   * 욕설이나 인신공격성 글은 삭제합니다. [운영원칙]
매체소개 구독신청 구독문의기사문의개인정보취급방침청소년보호정책 이메일무단수집거부찾아오시는 길
한겨레신문(주) | 제호 : 이코노미 인사이트 | 등록번호 : 서울 아 01706 | 등록일자 : 2011년 07월 19일 | 발행일 : 2011년 07월 19일 | 발행인 : 최우성 | 편집인 : 박종생
발행주소 : 서울특별시 마포구 효창목길 6 (공덕동, 한겨레신문사) | 한겨레 고객센터 1566-9595 | 청소년보호 책임자 : 박종생
Copyright 2010 Hankyoreh. All rights reserved.