> 뉴스 > 커버스토리
     
양질의 데이터 확보가 관건
[COVER STORY] ‘챗지피티 신약’ 열전- ③ 과제
[163호] 2023년 11월 01일 (수) 장모팅 economyinsight@hani.co.kr

 

장모팅 蔣模婷 <차이신주간> 기자

   
▲ AI 제약에 활용되는 여러 유형의 데이터 가운데 임상 데이터가 가장 확보하기 어렵다. 이스라엘의 한 대형병원에서 의사가 코로나19 진단시약 개발을 위한 임상시험을 하고 있다. REUTERS

알고리듬과 연산능력, 데이터는 인공지능(AI)의 3대 요소이며 챗지티피(ChatGTP) 열풍은 알고리듬 개발을 자극했다. AI 제약 업계 관계자들은 알고리듬의 발전도 중요하지만 AI 제약이 획기적인 성과를 거두려면 알고리듬만으로는 부족하다고 지적했다.
AI제약사 위안이즈후이의 판루룽 최고경영자(CEO)는 “연산능력이 AI 제약의 발전을 가로막는 주원인은 아니다”라고 말했다. 반면 데이터의 역할은 매우 중요하다. “AI 제약의 발전은 알고리듬과 데이터가 상부상조한 결과다.” 판루룽 CEO는 “생성형 AI를 훈련하려면 AI에 합리적인 조건을 설정하는 것이 중요한데 이 조건은 기본 훈련에서 어떤 데이터를 사용했는지에 따라 결정된다”고 말했다.
“AI 제약 분야의 데이터는 주로 과학자의 실제 연구 성과다.” 글로벌보건신약개발연구소(GHDDI)의 궈진장 데이터과학부 연구원은 “과학자의 연구는 보통 어떤 규칙과 가설 또는 편견을 따라 전개해 한쪽으로 자라는 지식 나무와 같다”며 “데이터를 일정 수준까지 축적하지 못하고 일부 영역만 풍부하다면 AI가 훈련할 때는 성과가 좋고 이론의 정확도가 높지만, 사용 범위를 확대하면 결과가 예상과 다를 수 있다”고 말했다.
최근 몇 년 동안 AI 제약 분야에서 멀티모달(Multimodal) 데이터가 화제였다. 멀티모달 데이터는 하나의 데이터 세트에 이미지와 텍스트, 오디오, 비디오 등 유형이 다른 정보 또는 데이터 재료가 포함된 것을 말한다. 챗지피티3.5와 비교해 챗지피티4는 텍스트는 물론 이미지를 입력할 수 있다는 점이 크게 달라진 부분이었다.
초거대 모델은 멀티모달 데이터를 처리할 때 강점이 있다. 일반적으로 소규모 모델에서는 다양한 데이터를 처리하려면 여러 특징 추출과 표시 방법을 설계해 조합하고 융합해야 하는데, 초거대 모델은 멀티모달 데이터를 동시에 처리하고 그사이의 복잡한 관계를 자동으로 학습한다.
최근 챗지피티에서는 사용하지 않지만 멀티모달 데이터 처리에 능숙한 일부 알고리듬 아키텍처(컴퓨터 시스템 전체의 설계 방식)가 발전했고 제약업계의 관심을 받았다. 지식그래프(Knowledge Graph)가 대표적이다. 지식그래프는 객체와 개념, 그사이의 관계를 포착하고 묘사한다. 홍콩 AI제약사 인실리콘메디슨과 미국 서모피셔사이언티픽 산하의 분자 진단 업체 퀴아젠은 지식그래프를 융합한 AI 제약 기술 플랫폼을 개발했다.
지금의 AI 제약은 데이터 수량과 전문성 기준이 높아졌고 필요한 데이터 유형도 다양해졌다. “2014년 인실리콘메디슨을 설립한 후 10년이 지나서야 과학연구 분야 문헌과 약리 데이터, 분자 정보, 유전체학, 단백질 서열, 환자 데이터 등을 포함한 실제로 사용할 수 있는 데이터베이스를 갖출 수 있었다.” 인실리콘메디슨의 알렉스 자보론코프 CEO는 “이 데이터베이스가 얼마나 큰지 정확한 숫자로 표현할 순 없다. 다만 이 데이터베이스를 구축하기 위해 수백만달러를 지출했고 2조달러(약 2700조억원) 이상 과학연구비를 지원한 사업에서 생성된 모든 데이터를 추적했다”고 말했다.
데이터를 확보하기 힘든 주요 이유는 비용이다. 판루룽 CEO는 “약물 분자를 설계할 때 효소 촉매작용, 세포실험, 동물실험 데이터 등 약리학 데이터는 영원히 부족할 수밖에 없다”고 말했다. 데이터를 확보하기 힘든 또 다른 이유는 제약업체의 보수성에 있다. 의약업계 내부에 방대한 규모의 약물 소분자와 표적 데이터가 축적됐지만 대부분 공개적으로 확보할 수 없고 다국적 제약사와 연구기관이 보관한다. 상업 기밀을 보호하고 경쟁력을 위해 제약사는 연구 데이터를 공개하지 않는다.

개인정보보호 준수 리스크
여러 유형의 데이터 가운데 임상 데이터가 가장 확보하기 어렵다. 앞에서 언급한 이유 외에 개인정보보호 문제 때문에 민감한 편이고 데이터를 확보하고 사용할 때 법규 준수 리스크가 따른다.
“최근 ‘개인정보보호법’과 ‘데이터보안법’ ‘데이터 국경 간 이동 평가 방법’ 등 관련 법규가 만들어졌고 중국은 법률과 처벌이 강도가 있는 편이라서 데이터 규정 준수를 엄격하게 감독하는 시대에 진입했다.” 허징징 중국사회과학원 국제법연구소 부연구원의 설명이다. 그는 “기업이 데이터 관련 규정 준수 능력과 의식을 강화해 데이터를 처리하는 과정에서 규정을 준수하고 리스크를 해소해야 한다”고 말했다.
하지만 실제 상황에서 이를 실천하기는 쉽지 않다. “기업이 의료 데이터를 사용하려면 여러 부처의 다양한 법규를 지켜야 하는데 이 법규를 완벽하게 집행하면 기업은 규정 준수 리스크를 피할 수 없다.” 한쿤(漢坤)변호사사무소 구양 변호사는 이렇게 말했다.
예를 들어 환자로부터 정보 제공 동의를 받아 임상시험 데이터를 수집해 이용할 경우 ‘약물 임상시험 관리 규범(2020)’과 ‘개인정보보호법’에 자세하고 엄격한 규정이 있다. 혈액 등 인간 유전정보가 포함된 생물학적 샘플(Biological Sample)을 수집하려면 ‘인류 유전정보 관리조례’ 등을 지켜야 한다. 이 세 법규를 국가약품감독관리국과 국가인터넷정보부서, 국가과학기술부서에서 함께 관리한다.
“엄밀하게 말하면 많은 과학연구기관과 병원, 기업이 환자와 합의한 정보 제공 동의 조항은 관련 법규 내용을 완벽하게 반영하지 않는다. 환자가 데이터 수집에 동의했다고 해서 기관이 데이터를 여러 차례 이용하거나 장기간 보관할 수는 없다. 기관이 환자에게 ‘데이터를 영구 보관하고 이용하는 것에 동의한다’는 조항을 요구해서도 안 된다. 이 법률은 최대한 개인의 권익을 보호하지만 기술과 산업발전에 도전적인 문제라는 것도 사실이다.” 구양 변호사가 말했다.
기업이 직접 수집하지 않고 병원이 임상 데이터를 공유하거나 개방하기를 바란다면 더 큰 문제에 부딪힌다. 2018년 국가위생건강위원회가 발표한 ‘국가 건강의료 빅데이터 표준과 보안, 서비스 관리 방법’은 의료보건기관과 관련 사업단체를 건강과 의료 빅데이터의 보안과 응용 관리를 책임지는 주체로 규정했다.
탕저우핑 퉁지병원(同濟醫院) 부원장은 “데이터 보안에 대한 직접적인 책임 때문에 최상위급 병원은 상당히 많은 인력과 물자를 투자해 데이터 보안 시스템을 마련했다”면서 “우리 병원 기술 담당 부서에는 70명이 넘는 직원과 200명이 넘는 협력사 파견 엔지니어가 일한다”고 말했다.
국가급 의료 데이터베이스에서 데이터 공유를 요구하면 병원은 주저할 때가 있다. 탕저우핑 부원장은 주로 시스템 보안 리스크 때문이라고 말했다. “각 기관이 데이터를 갖고 있지만 사용하지 않고 사용법도 몰라서 의료 데이터 이용에 유리한 생태계를 만들기 어렵다.” 허징징 부연구원은 중국의 의료 데이터 이용률이 매우 낮은 원인은 다양하다고 말했다.
의료 데이터 자체가 민감하고 대다수 개인정보 주체는 정보처리자가 진료 이외의 목적을 위해 데이터를 처리하는 과정을 신뢰하기 어렵다. 실제로 데이터 유출과 멸실, 해커 공격, 불법 거래 등 여러 문제가 끊이지 않았다. 그리고 의료 데이터는 출처가 다양하고 수집 방식이 달라 데이터의 품질과 정확도의 격차가 크고, 데이터를 처리하고 통합하려면 비용을 많이 투입해야 한다. 기관 간 데이터 공유에 명확한 법규와 정책이 없어서 데이터 권리에 관한 분쟁이 발생하면 데이터 규정 준수에도 영향을 준다. 허징징 부연구원은 “감독당국이 데이터 사용의 명확한 기준을 제정하고, 데이터의 합법 사용을 위해 과학적 방법을 응용하고 도구를 개발하도록 격려해야 한다”고 말했다.

의약 분야서 AI의 응용 잠재력
그렇다면 AI제약사는 무엇을 할 수 있을까? 업계 관계자는 “업계에서 임상 데이터를 비식별 처리한 후 이용하고 인체 유전정보 등 민감한 데이터를 최대한 피한다”면서 “어떤 방법으로 어느 수준까지 비식별 처리를 해야 하는지 구체적인 정책 안내가 없어서 기업은 여전히 난관에 직면해 있다”고 말했다. 유럽연합(EU)은 2018년부터 시행한 ‘일반 데이터 보호 규정’(GDPR)으로 기관이 개인정보를 처리하는 기술과 조치를 규정했다. 기관이 스스로 평가하고 인증하거나 제3의 인증기관을 통해 GDPR 기준에 부합하는지 증명해야 한다.
양루이룽 벤처캐피털 MVP 파트너는 디지털 의약 기업이 민감한 병원 내 환자 데이터에만 관심을 두지 말 것을 제안했다. “임상 데이터, 특히 병원 내 데이터를 확보하려면 여러 제약이 있어서 기업이 함부로 시도할 수 없다. 하지만 건강 모니터링 데이터나 의약품 소비 데이터처럼 확보하기 쉽고 환자의 정보 제공 동의를 받은 상업 데이터도 잠재력이 있다.”
AI제약사는 전세계에서 데이터를 찾을 수 있다. “법률 준수 위험을 고려해서 우리 회사 데이터베이스에는 중국에서 확보한 임상 데이터가 없다. 유럽에서 확보한 데이터도 적고 대부분 미국이 출처다.” 자보론코프 CEO는 “과학기술 발전의 관점에서 보면 미국의 일부 제도는 기업에 우호적”이라고 말했다.
“의약 분야에서 AI의 응용 잠재력은 주목할 만하고 기대되는 부분이다.” 왕리밍 선전베이실험실 수석연구원은 “챗지피티가 등장한 후 많은 사람이 AI가 모든 문제를 해결해주리라 기대하는데 이를 경계해야 한다. 단백질 구조 예측과 설계, 유전자 서열 분석과 발굴 등 지금까지 AI가 거둔 성과는 생물의학 연구에서 데이터 품질이 우수한 일부 연구를 기반으로 한다”며 “그러나 생물의학의 다른 연구 분야는 연구 시스템이 복잡하고 데이터의 품질을 보증하기 어렵다. 품질이 우수하지 않은 데이터를 무분별하게 AI에 입력하면 ‘쓰레기를 투입해서 쓰레기가 나오는’(입력 데이터가 좋지 않으면 출력 데이터도 좋지 않다는 의미 -편집자) 과정으로 전락할 것”이라고 말했다.

ⓒ 財新週刊 2023년 제34호
“GPT製藥”暢想
번역 유인영 위원

 

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.

  

장모팅의 다른기사 보기  
ⓒ Economy Insight(http://www.economyinsight.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     
전체 기사의견(0)  
 
   * 300자까지 쓰실 수 있습니다. (현재 0 byte/최대 600byte)
   * 욕설이나 인신공격성 글은 삭제합니다. [운영원칙]
매체소개 구독신청 구독문의기사문의개인정보취급방침청소년보호정책 이메일무단수집거부찾아오시는 길
한겨레신문(주) | 제호 : 이코노미 인사이트 | 등록번호 : 서울 아 01706 | 등록일자 : 2011년 07월 19일 | 발행일 : 2011년 07월 19일 | 발행인 : 최우성 | 편집인 : 박종생
발행주소 : 서울특별시 마포구 효창목길 6 (공덕동, 한겨레신문사) | 한겨레 고객센터 1566-9595 | 청소년보호 책임자 : 박종생
Copyright 2010 Hankyoreh. All rights reserved.