> 뉴스 > 커버스토리
     
제약 산업에 부는 챗지피티 열풍
[COVER STORY] ‘챗지피티 신약’ 열전- ① 현황
[163호] 2023년 11월 01일 (수) 장모팅 economyinsight@hani.co.kr

 
챗지피티 신약개발 이상인가 환상인가
인공지능(AI)은 빅데이터를 바탕으로 현실 세계에서 다양한 가능성을 보여준다. 이미 AI가 우리 일상을 뒤바꿀 패러다임으로 급부상한 가운데 제약·바이오 등 헬스케어 분야에도 새로운 도전을 부른다. 특히 생성형 AI 챗지피티(ChatGPT) 열풍이 몰아치면서 챗지피티가 신약개발 과정을 더욱 효율적으로 개선할 수 있다는 기대감이 부푼다. 기대감이 가장 큰 부분은 바로 챗지피티의 새로운 단백질 발굴이다. 이를 통해 신약개발 시간과 비용을 획기적으로 줄일 수 있기 때문이다. 반면 챗지피티가 신약개발 과정에 당장 큰 변화를 주기에는 한계가 있다는 주장도 만만치 않다. 챗지피티 신약개발의 현주소와 응용가치 그리고 앞으로 극복해야 할 과제를 살펴봤다. _편집자


장모팅 蔣模婷 <차이신주간> 기자

   
▲ 최근 제약업계에서 화제가 된 ‘지피티(GPT) 제약’은 챗지피티를 제약산업에 직접 응용하는 것은 물론 지피티의 기반이 되는 기술을 신약개발에 이용하는 것도 포함한다. 챗지피티를 개발한 오픈AI의 샘 올트먼 최고경영자가 2023년 6월12일 일본 도쿄 게이오대학에서 열린 간담회에서 발언하고 있다. REUTERS

“노화를 늦출 수 있는 신약 분자를 하나만 설계해줄래요?”
이 요청을 받은 후 인공지능(AI) 기업 오픈AI가 개발한 생성형 AI 챗지피티(ChatGPT)3.5는 “자신은 AI일 뿐이고 진짜 신약을 설계할 수는 없다”며 반복 강조한 후 ‘C22H30N6O4S’라는 답을 내놨다. ‘YouthX-1’이라는 그럴듯한 코드명도 제안했다. 하지만 C22H30N6O4S는 신약이 아니라 성기능장애 치료제 구연산실데나필(Sildenafil Citrate)의 분자식이다.
지금 챗지피티에 신약개발을 맡긴다면 터무니없는 이야기일 것이다. 챗지피티가 가진 데이터베이스에서 의료 관련 데이터의 비중은 5% 미만이고 품질과 안전성을 보장하기도 어렵다. 하지만 사람들은 상상의 나래를 펼쳤다. 인터넷 텍스트의 다양한 내용을 학습한 챗지피티는 이미 교육과 인터넷, 컨설팅에서 돌풍을 일으킨 만큼 특정 분야의 훈련을 강화하면 장벽이 높은 신약개발에서도 실력을 발휘할 수 있지 않을까?
이런 상상은 신흥산업인 AI 제약을 향한 관심을 불러왔다. 현재 40개 AI제약사의 80건이 신약개발 임상시험 단계에 진입했고 시장에 출시될 첫 번째 AI 신약이란 ‘월계관’을 두고 경쟁하고 있다. AI제약사는 전통 제약사에 서비스를 제공하고 정보기술(IT) 기업과 협력하는 것부터 직접 신약을 개발하기까지 비교적 성숙한 사업모델을 찾았다. 4~5년 전부터 AI 제약은 투자자들의 관심이 높은 분야였다. 2023년 7월 미국의 반도체 기업 엔비디아가 AI 신약개발 기업 리커전(Recursion)에 5천만달러(약 675억원)를 투자하고 초거대 AI 신약 모델을 공동 개발하기로 하자 전세계 주식시장에서 의약 분야 주가가 출렁였다.
그러나 챗지피티는 아직 주요한 AI 신약개발 모델이 아니기 때문에 제약 분야에서 ‘지피티 혁명’이 일어났다고 말하기는 어렵다. 업계에서 화제가 된 ‘지피티 제약’은 챗지피티를 제약산업에 직접 응용하는 것은 물론 지피티의 기반이 되는 기술을 신약개발에 이용하는 것도 포함한다.

   
▲ 인공지능(AI)제약사인 인실리코메디슨이 설계한 AI 신약 후보가 사상 처음으로 임상2상시험에 돌입했다. 인실리코메디슨 연구소. 인실리코메디슨

챗지피티가 가진 AI 제약 기술
챗지피티가 제약 분야에 제공할 수 있는 AI 기술은 △초거대 모델 △생성형 AI △트랜스포머 모델 △사전 학습 등이다. 초거대 모델은 이름 그대로 AI 알고리듬 매개변수가 매우 많다. 시장에서는 챗지피티3.5의 매개변수가 1750억 개며 챗지피티4의 매개변수는 100조 개에 달한다는 소문이 돌았다. 생성형 AI는 새로운 콘텐츠와 데이터를 만드는 것이 목표여서 기존 판별형 AI와 구분된다. 트랜스포머 모델(문장 내 단어들의 관계를 추적해 연광성을 찾고 문맥을 학습하는 네트워크)은 일종의 AI 알고리듬 아키텍처(컴퓨터 시스템 전체의 설계 방식)로 AI가 데이터 사이의 논리 관계를 파악하도록 만들고 빅데이터를 처리할 때 자기학습 능력을 키워준다. 사전 학습은 대량의 미분류 데이터(Unlabeled Data)로 모델을 훈련한 후 규모가 작고 특정 임무를 가진 데이터 세트로 미세 조정하는 것을 말한다.
“전문가 입장에서 보면 생성형 AI를 기반으로 하는 챗지피티는 특별한 첨단 기술이 아니다. 챗지피티가 세상에 나오기 전에도 생성형 AI는 제약 분야에 도움을 줬다.” 알렉스 자보론코프 인실리코메디슨 창업자 겸 최고경영자(CEO)는 “챗지피티의 진정한 가치는 배후에 있는 AI 기술을 특화해 사용 효과가 매우 직관적인 제품으로 만든 것이다. 챗지피티가 성공하면서 기반 기술인 생성형 AI가 제약 분야에 더 많이 보급됐다”고 말했다.
챗지피티는 AI 제약에 무엇을 가져다줄까? 글로벌보건신약개발연구소(GHDDI)의 궈진장 데이터과학부 연구원은 “의약 화학, 유전체학 분야의 10억 개가 넘는 방대한 데이터는 초거대 AI 모델을 훈련하기에 충분하다”고 말했다. 이를 기반으로 사전 훈련을 진행해 AI 모델의 정확도를 높이고 연구자가 신약개발 과정에서 겪는 구체적인 문제를 해결하도록 돕는다. 업계에서 생각하는 가장 타당성 있는 지피티 제약 방법이다.
챗지피티의 기반이 되는 기술과 AI 제약 기술을 융합해 AI 제약의 알고리듬을 개선하면 AI가 표적을 발견해 약물 분자를 설계하는 능력을 향상할 수 있고, AI의 응용을 신약개발 전 과정으로 넓힐 수 있다. 지피티 제약에서 꿈꾸는 미래다. 초거대 AI는 생명과학 분야의 풍부한 멀티모달(Multimodal, 텍스트·이미지·음성 등 여러 종류의 데이터를 동시에 처리하는 기술) 데이터를 잘 이해할 수 있다. 예를 들면 영상 데이터와 단백질 약물, 소분자 약물 데이터를 동시에 이해해 지피티 제약의 결과물을 개선할 수 있다.
딩성 중국 칭화대학교 약학대학 학장 겸 GHDDI 주임은 더 대담한 상상을 했다. 그는 “지피티 제약의 궁극적인 목표는 AI가 자연어를 이해하는 것처럼 생명체의 언어를 이해하고, 생명의 새로운 규칙을 발견해 신약개발에 혁신적인 생각을 하는 것”이라고 말했다. 하지만 어떻게 생명과학에 대한 인류의 지식을 AI가 이해하는 ‘언어’로 번역할 수 있을까? 딩성 주임은 GHDDI에서 그런 ‘번역’을 해봤다고 밝혔다.
초거대 제약 AI가 성공하려면 강력한 연산능력과 알고리듬, 데이터가 필요한데 모든 기업이 이를 손에 넣을 수는 없다. 그중 데이터는 지피티 제약의 잠재력을 제약하는 요인이다. “이상적인 지피티 제약을 실현하기 위한 가장 큰 걸림돌이 품질 높은 임상 데이터를 확보하는 일이다.” 가오앙 이퀄오션(億歐) 이사총경리는 “소규모 AI 모델은 약물 발견 분야에서 괜찮은 성능을 보여줬고 초거대 AI는 약물의 임상 개발에 참여하는 것이 강점이다. 이런 초거대 AI를 훈련하려면 데이터의 품질과 수량이 일정한 수준에 도달해야 한다”고 말했다.

   
▲ 2023년 7월 미국 반도체기업 엔비디아가 AI 신약개발기업 리커전에 5천만달러를 투자하자 전세계 주식시장에서 의약 분야 주가가 출렁였다. 미국 캘리포니아주 샌타클래라의 엔비디아 본사. REUTERS

AI로 만든 신약의 탄생
2017년 자보론코프 CEO는 미국 샌디에이고에서 ‘지수 의학 서밋’ (Exponential Medicine Summit)에 참석했다. 비영리조직인 미국 싱귤래리티대학(Singularity University)이 주최한 의약 분야의 권위 있는 회의다. 연사로 참석한 자보론코프 CEO는 “생성형 AI 기술이 새로운 약물 표적(target) 식별을 도울 만큼 발전했고 성공률이 높은 신약 후보 분자를 찾을 수 있다”고 소개하며 “기존 신약 발견이 망망대해에서 바늘을 찾는 것이었다면 생성형 AI는 완벽한 바늘을 하나씩 만드는 셈”이라고 설명했다.
업계와 투자자들은 믿지 않았다. 그러나 4년이 지나 AI로 만든 신약이 탄생했고 환자에게 투약하는 단계에 진입했다. 2021년 4월 영국 기업 엑사이언티아(Exscientia)가 처음 AI로 만든 암치료를 위한 면역항암제 ‘EXS21546’이 임상시험에 돌입했다. 2022년 2월에는 인실리코메디슨의 ‘INS018_055’도 임상시험을 시작한다고 밝혔다.
챗지피티가 등장한 후 생성형 AI와 초거대 AI 개념이 다시 화제가 됐다. 궈진장 연구원은 “AI 제약 분야에서 지피티 열풍이 불었다기보다 챗지피티 열풍이 모든 AI 업계를 휩쓸었고 AI 제약도 예외가 아니었다”고 말했다. 그는 2015년 프로 바둑기사를 이기고 유명해진 알파고(구글이 개발한 AI 바둑 프로그램)를 떠올렸다. “알파고가 등장하자 모든 AI 종사자가 딥러닝(심층학습)을 연구했고, 챗지피티가 등장한 후 모든 종사자가 초거대 AI 모델을 시도하려 한다.”
인실리코메디슨은 AI제약사 가운데 처음 챗지피티를 활용했다. 2023년 3월 인실리코메디슨의 표적 식별 플랫폼 판다오믹스에 ‘챗판다지피티’(ChatPandaGPT)라는 새로운 기능을 도입했다. 이를 통해 연구원이 대규모 데이터를 검색하고 분석할 때 플랫폼과 자연어로 대화해 원하는 정보를 정확하게 찾을 수 있다. 이 기능은 거대 언어 모델을 기반으로 하고 인실리코메디슨의 생물의약 전문 데이터베이스로 훈련했다.
챗판다지피티가 직접 신약 분자를 설계하지는 않는다. 자보론코프 CEO가 소개한 것처럼 복잡한 데이터 검색을 쉽게 만들고 치료 표적과 바이오마커(생체지표자) 식별을 돕지만 본질은 연구원을 보조하는 것이다. 자보론코프 CEO는 “챗지피티가 매우 훌륭하고 매력적이지만 생물의약 분야에서 필요한 것은 대략적인 이해를 돕는 백과사전이 아니라 믿을 수 있는 약물 개발 파트너”라고 말했다.

   
▲ 2023년 3월30일 키프로스 니코시아의 파스칼고등학교에서 한 학생이 챗지피티(ChatGPT)로 구동되는 로봇을 작동하고 있다. REUTERS

챗지피티 활용한 단백질 설계
지피티 또는 비슷한 AI 모델을 이용해 생물의약 분야의 과학연구 문헌을 정리하고 분석하는 응용도 등장했다. “챗지피티는 자연어 처리 분야에서 질적인 혁신을 이뤘다. 챗지피티를 이해한 후 신약개발 초기 단계에서 연구자가 일일이 문헌을 검색하는 비효율적인 문제를 해결할 수 있으리라 생각했다.” AI제약사 위안이즈후이(圓壹智慧)의 판루룽 창업자 겸 CEO는 챗지피티3.5를 처음 사용했을 때의 생각을 이렇게 말했다.
이 구상은 실현하기 어렵지 않다. 과학 문헌 데이터가 풍부하고 데이터를 확보해 정리하기가 상대적으로 쉽기 때문이다. 챗지피티가 출시되기 전에도 과학 문헌을 자연어로 처리하는 기술을 개발한 회사가 있었고 비교적 성숙한 단계였다. 코로나19 대유행 시기에 영국 스타트업(신생기업) 베네볼런트AI는 AI로 과학 문헌을 정리·분석해 오래전 개발한 약물인 바리시티닙(Baricitinib)이 코로나19 치료제로 사용할 수 있다는 점을 발견했고, 미국식품의약국(FDA)이 이를 코로나19 단독 치료제로 승인했다.
다음 단계 목표는 지피티와 비슷한 AI 모델이 연구자의 수요에 따라 직접 신약을 설계하고 비교적 괜찮은 정확도를 유지하는 것이다.
“학계는 지난 20~30년 동안 챗지피티 기반 기술을 신약개발에 적용하는 방법을 탐색했다. 비록 주요 연구 방법이 되진 않았지만 그때는 데이터가 많지 않았다.” 판루룽 CEO는 위안이즈후이의 단백질 대분자 약물 설계 플랫폼 센티누스AI(Sentinus AI)도 트랜스포머 모델과 사전 학습 등 챗지피티 기반 기술을 적용했다고 말했다. 트랜스포머 모델과 수준 높은 데이터 훈련 덕분에 AI가 단백질 성분과 구조를 약물로 작용할 때 구체적으로 어떤 역할을 하는지 잘 이해할 수 있었다.
챗지피티가 등장하기 전에도 IT 기업과 연구기관은 AI로 새로운 물질, 특히 단백질을 설계하는 시도를 했다. AI제약사는 이 모델의 기반 기술을 자사의 기술 플랫폼에 융합했다. 그중 단백질을 설계하는 생성형 AI가 가장 많은 관심을 받았다. 단백질은 수학 언어로 표현하고 이해하기 쉽다. 단백질은 아미노산으로 구성되는데, 아미노산은 특정 순서로 연결되어 고리형 구조를 만든다. 이것이 단백질 서열이다. 아미노산은 총 20종이고 단백질 길이는 아미노산 수로 표현되는데 수십 개에서 수천 개까지 연결된다. 아미노산 고리는 접을 수 있고 입체적 구조를 만들 수 있는데 특정 조건에서 구조가 변해 단백질 특성에 영향을 준다.
단백질 설계도 잠재력과 응용 가능성이 크다. 자연계에 있는 천연 단백질은 단백질 서열 중에서 아주 적은 부분을 차지한다. 그러나 임의로 단백질 서열을 설계하면 생물학적 기능을 하지 못할 가능성이 크다. 실용 가치가 있는 인공 단백질을 효율적으로 찾아낸다면 의학과 환경과학, 재료학 등 여러 분야에서 중요한 의미가 있을 것이다.
이런 복잡하고 숫자로 표현할 수 있는, 수많은 시행착오를 거쳐야 하는 임무 앞에서 AI는 거대한 잠재력을 보여줬다. 2021년 7월 구글의 딥마인드는 ‘알파폴드’를 출시했다. 이 소규모 AI 모델은 단백질 서열에 기반해 단백질의 3차원 구조를 정확히 예측했고 여러 해 동안 학술계가 고민했던 난제를 해결했다.
생성형 AI의 임무는 더 도전적이어서 무에서 유를 창조하듯 단백질 서열을 만들어야 한다. 최근 AI로 단백질을 만드는 기술을 둘러싸고 경쟁이 치열하다. 가장 대표적인 AI 모델은 2020년 미국 소프트웨어 기업 세일즈포스와 스탠퍼드대학 연구팀이 공동 개발한 ‘프로젠’과 2022년 6월 미국 워싱턴대학 데이비드 베이커 교수 실험실에서 개발한 ‘프로틴MPNN’이 있다.
2022년 12월 페이스북과 인스타그램을 운영하는 메타 AI와 미국 매사추세츠공과대학 연구팀도 경쟁에 뛰어들어 2억5천 개의 천연 단백질 서열을 기반으로 구축한 사전 학습 언어 모델로 단백질 서열 228개를 만들었다.

치열한 AI 제약 기술 경쟁
각 개발팀의 예측에 따르면 이 AI 모델은 자연계에 없지만 생물학적 기능을 가진 단백질을 찾을 수 있다. 프로젠이 만든 단백질은 천연 단백질과 유사성이 31%지만 발현율은 천연 단백질과 비슷하다. 메타 AI가 만든 단백질은 67%의 서열이 수용성 발현을 할 수 있다. 수용성 발현과 발현율은 단백질이 생물학적 기능이 있는지 구분하는 중요한 지표다. 이 수치는 그런대로 의미가 있지만 AI 모델에 획기적인 의미를 부여하진 못한다.
판루룽 CEO는 “단백질 생성 AI는 챗지피티로 대표하는 거대 언어 모델, 즉 자연어 처리에 사용되는 초거대 AI가 획기적인 영향을 가져올 것”이라고 말했다. 연구자는 단백질 서열을 하나의 자연어로 간주하고 트랜스포머 모델을 포함한 각종 자연어 처리 기술을 적용해 단백질 정보를 처리하고 분석할 수 있다. 과거에는 생성형 AI가 언어를 모호하게 이해해 예상하지 못한 결과를 가져왔고 위험 부담이 있었다. 하지만 단백질 서열 데이터베이스 규모가 커지면 AI 성능이 연구자의 기대치에 근접할 것이다.
“단백질이 복잡하지만 단백질의 약물 성질에 영향을 주는 요소가 소분자 약물보다 훨씬 적다. 소분자의 지극히 작은 변화가 약물을 복용한 사람의 생사를 결정할 수 있다.” 자보론코프 CEO는 “제약사가 AI를 사용해 단백질 서열을 만들고 대분자 약물의 개발 효율을 높이고 정확도와 응용가치가 더 높은 단백질 설계 AI가 등장할 것”이라고 말했다.
미국 AI제약사 크리스탈파이(Xtal-Pi)는 대분자 약물 설계 플랫폼에 ‘프로틴지피티’ 전략을 개발했다고 밝혔다. 단백질 서열 정보를 일종의 언어로 간주하고 자연어 처리 기술로 단백질 서열 정보를 번역한 후 언어 모델을 만들어 단백질 서열을 생성하는 원리다.
소분자 화학물질 분야는 생성형 AI를 적용하기 어렵지만 이미 적용한 사례가 있다. 인실리콘메디슨의 AI 신약 INS018_055는 생성형 AI가 발견한 소분자 약물이다. 판루룽 CEO는 “유전자 정보도 일종의 언어로 이해할 수 있다”고 말했다.
그러나 지피티 제약의 응용과 보급이 AI 제약 기술의 철저한 교체를 의미하지는 않는다. “생성형 AI는 제약사 기술 시스템에서 중요한 퍼즐의 한 조각이 될 것이다.” 자보론코프 CEO는 “앞으로 모든 회사의 기술 플랫폼에서 소규모 모델과 초거대 모델, 생성형 AI와 판별형 AI 등 다양한 알고리듬이 유기적으로 결합할 것”이라며 “결국 전체 시스템에서 발견한 연구 성과와 신약 분자를 사용해 제약사와 환자의 마음을 움직여야 한다”고 말했다.

ⓒ 財新週刊 2023년 제34호
“GPT製藥”暢想
번역 유인영 위원

 

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.

  

장모팅의 다른기사 보기  
ⓒ Economy Insight(http://www.economyinsight.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     
전체 기사의견(0)  
 
   * 300자까지 쓰실 수 있습니다. (현재 0 byte/최대 600byte)
   * 욕설이나 인신공격성 글은 삭제합니다. [운영원칙]
매체소개 구독신청 구독문의기사문의개인정보취급방침청소년보호정책 이메일무단수집거부찾아오시는 길
한겨레신문(주) | 제호 : 이코노미 인사이트 | 등록번호 : 서울 아 01706 | 등록일자 : 2011년 07월 19일 | 발행일 : 2011년 07월 19일 | 발행인 : 최우성 | 편집인 : 박종생
발행주소 : 서울특별시 마포구 효창목길 6 (공덕동, 한겨레신문사) | 한겨레 고객센터 1566-9595 | 청소년보호 책임자 : 박종생
Copyright 2010 Hankyoreh. All rights reserved.