[이슈] 미국 독립선언문조차 ‘인공지능이 작성’ 오판

홈 > 뉴스 > 이슈

미국 독립선언문조차 ‘인공지능이 작성’ 오판

[technology] AI 콘텐츠 탐지기, 신뢰할 수 있나

[160호] 2023년 08월 01일 (화)

아난트 아가르발라

economyinsight@hani.co.kr

인공지능(AI)을 활용한 부정행위를 찾아내는 AI 콘텐츠 탐지기는 개발돼 있다. 특히 일선 학교와 대학은 AI 콘텐츠 탐지기를 이미 활용하고 있다. 하지만 탐지기의 정확도가 상당히 떨어지는 것으로 악명이 높다. 미국 스탠퍼드대학은 AI 콘텐츠 탐지기 7개를 검사해 그 결과를 비공개 연구보고서에 담았다. 이에 따르면 AI 콘텐츠 탐지기는 외국인이 작성한 텍스트를 AI가 작성한 것으로 오판했다.

아난트 아가르발라 Anant Agarwala <차이트> 기자


▲ 샘 올트먼 오픈에이아이(OpenAI) 대표가 2023년 6월12일 일본 게이오대학 학생들과 대화하고 있다. 오픈에이아이가 내놓은 챗지피티(ChatGPT)로 작성한 글이 쏟아지자, 이를 사람이 쓴 글과 구별하기 위한 다양한 방안이 나오고 있다. REUTERS

1776년 7월4일 미국 독립선언문과 2023년 6월7일 발간된 <차이트> 제25호에 실린 이 기사의 공통점은 무엇일까? AI 콘텐츠 탐지기는 두 텍스트 모두 AI가 작성한 텍스트라고 판단했다. <차이트> 취재진의 컴퓨터 화면에 ‘AI 콘텐츠일 확률 99.9%!’라고 떴다. (암스테르담대학, 에든버러대학, 샌디에이고대학 로고를 부착한 AI 콘텐츠 탐지기 카피리크스(Copyleaks)는 이 기사의 도입부에 나오는 문장 여러 개를 100% AI가 생성한 것으로 봤다.)
두 텍스트 가운데 미국 독립선언문의 경우 AI 콘텐츠 탐지기가 명백히 오판했다는 것은 삼척동자도 알 수 있다. 토머스 제퍼슨(1743~1826) 당대에 챗지피티(ChatGPT)가 작성한 텍스트가 있었을 가능성은 전무하기 때문이다.
반면 이 기사의 도입부가 실제 AI 콘텐츠인지는 자세히 들여다봐야 한다. <차이트> 취재진은 2023년 5월 말 컴퓨터에서 해당 기사를 직접 썼다. 또한 <차이트> 취재진도 챗지피티를 종종 사용한다. 챗지피티는 농담하거나, 아이디어를 내놓거나, 착각을 불러일으킬 정도로 사람이 쓴 듯한 기사를 작성한다.
<차이트> 취재진은 AI 콘텐츠를 자신이 직접 작성한 척한다는 비난을 어떻게 반박할 수 있는가? 자신의 주장과 AI의 주장이 정면 배치되는 상황에서 말이다. 이 경우는 다행스럽게도 대학 석사논문이 아닌 단순한 저널리즘적 실험에 불과하다. 그리고 <차이트> 편집부가 AI 콘텐츠 탐지기로 취재진의 기사를 점검하지도 않는다.


▲ AI 콘텐츠 탐지기 카피리크스(Copyleaks)의 화면. <한겨레> 영문판 기사를 입력하자 인간이 작성한 텍스트라고 판정했다. 카피리크스 갈무리

탐지기 오판 항의 빗발
AI 콘텐츠 탐지기의 오판에 따라 부정행위로 비난받을 것을 우려하거나, 혹은 부당하게 비난받는다고 항의하는 학생들의 불만이 영어권 온라인 커뮤니티에 넘쳐나고 있다. 대학 온라인 커뮤니티에는 AI 콘텐츠 탐지기의 오판으로 낙제 점수를 받았다는 학생들의 불만이 폭주한다. 자신이 AI를 부정하게 사용하지 않았음을 입증하는 방법을 묻는 학생이 한둘이 아니다. 미국 캘리포니아대학에서는 자신의 무죄를 입증하기 위해 대학 명예법원에 소송을 제기한 학생도 있다.
물론 AI를 활용한 부정행위가 횡행하는 것은 어제오늘의 일이 아니다. 독일 함부르크의 한 학생이 고등학교 졸업시험(아비투어)에서 스마트폰으로 챗지피티를 검색하는 현장이 발각됐고, 학생은 AI 활용 부정행위를 시인했다는 언론 보도가 있었다. 일반적으로 AI 콘텐츠로 의심되는 경우 탐지기를 활용하면 AI가 해당 텍스트를 작성했을 확률이 아주 높다는 결론이 나온다. 하지만 AI 사용 여부를 확실하게 입증할 방법은 아직 없다.
평균치 학생이나 대학생보다 많은 것을 해내거나 더 빨리 해내는 AI가 속속 나오면서 과거에는 없던 문제가 생겼다. 이제는 혼자선 해내지 못했을 시험도 AI의 도움을 받아 합격하는 시대가 됐다. 문제는 AI가 생성한 콘텐츠와 사람이 직접 만든 콘텐츠를 구분하기가 여간 어렵지 않다는 점이다. 더군다나 지피티제로(GPTZero), 카피리크스, 캐치지피티(CatchGPT) 등 AI 콘텐츠 탐지기의 신뢰성은 오래전부터 바닥 수준이다. 토머스 제퍼슨이 작성한 독립선언문을 AI가 작성했다고 탐지기가 판단한 사례가 대표적이다. (대학교수들도 사용하는 AI 콘텐츠 탐지기 지피티제로는 버락 오바마의 대통령으로서 첫 연설문을 “AI가 처음부터 끝까지 생성했을 확률이 아주 높다”고 판단했다. 반면 지피티제로는 마틴 루서 킹의 ‘나에겐 꿈이 있습니다’(I Have a Dream) 연설 도입부가 사람이 작성한 것이라고 정확하게 판명했다.)
대표적 AI 콘텐츠 탐지기인 턴잇인(Turnitin)은 “오판 확률이 1%에도 훨씬 못 미친다”고 AI 담당 에릭 왕 부사장은 영상통화에서 설명했다. 다만 전세계 웹페이지와 학술저널, 제출 과제 등을 실시간 비교해 유사도(표절률)와 관련 출처를 제공하는 웹서비스 턴잇인은 라이선스가 있어야 사용이 가능하고 아직 영어 텍스트에만 적용된다는 단점이 있다.
독일 종합대학과 응용학문대학(일종의 전문대학)에 연간 제출되는 에세이·리포트·졸업논문만 수백만 개에 이르는데 그 평가는 상장된 대기업 취업이나 옥스퍼드대학 석사학위 취득 등 향후 당사자의 인생을 결정짓는 요인이 될 수 있다. 대학은 졸업장으로 졸업생의 미래를 보장해주는 셈이다.
그래서 대학들은 공정성을 위해 AI를 활용한 졸업논문은 감점 등을 조처할 수밖에 없다. 우수한 성적으로 합격한 입사 지원자가 실제 제대로 할 줄 아는 것이 없고 우수한 성적도 AI 덕택이었다는 것을 기업이 뒤늦게 안다면 누가 대학 졸업장을 신뢰하겠는가? 챗지피티 없이는 해부학 시험에 무조건 불합격됐을 의대생들을 생각하면 앞으로 병원 치료를 믿을 수 있겠는가? 반면 노동시장은 이제 AI에 능숙한 노동력을 원하는데도 대학이 AI 활용을 금지한다면 대학 자체가 불필요해지는 것은 아닐까?
<차이트> 취재진은 여러 대학 담당자들과 인터뷰했다. 이들은 모두 챗지피티가 2022년 가을 공개된 뒤 챗지피티 대처를 주제로 각종 특별회의, 실무그룹 회의, 워크숍 등을 열었다고 한다. 대학에서 챗지피티의 무조건적 금지는 아무 효과가 없다는 점에 이제 합의한 듯하다. 챗지피티에 대한 초반의 의심과 두려움은 극복됐고, 이제는 AI를 더 효율적으로 쓰기 위한 방법을 모색하고 있다.
에를랑겐-뉘른베르크대학 총장단은 AI를 효과적으로 학업에 연계하는 것이 AI 콘텐츠 탐지보다 중요하다고 지적한다. AI는 인간에게 영감을 주는 역할에 한정돼야지 인간의 사고를 대신하면 안 된다는 것이다. 독일 대학에서는 과제와 졸업논문에 출처만 표기하면 AI 활용을 허용하는 강사들도 있다. 리포트에 참고 문헌 표기처럼 AI 활용 여부를 정확하게 명기하는 ‘인공지능 인용 주석’ 도입을 고민하는 대학들도 있다. (AI도 표절했다면 어떻게 해야 할까? 챗지피티가 생성한 콘텐츠를 텍스트에 활용하는 학생은 해당 텍스트의 표절 여부를 직접 검토해야 한다. AI는 인용문을 인용이라 언급하는 경우가 전무하기 때문이다.)


▲ 유엔에서 근무했던 독일 IU국제응용과학대학의 카말 바타차리아 부총장은 인공지능(AI) 활용을 지지하며, 교원들의 인공지능 활용 교육에 힘쓰고 있다. 유엔 누리집

구두시험 비중 늘려
IU국제응용과학대학 등에서는 AI 여파로 구두시험의 비중이 커질 전망이다. “대학 리포트는 AI 혁명의 파고를 넘어서지 못할 것으로 생각한다”고 카말 바타차리아 부총장은 말한다. 바타차리아 부총장은 AI 활용을 지지하며, 교원들의 AI 활용 교육에 힘쓰고 있다. FOM경제경영응용과학대학은 구두시험 비중을 늘리기 위해 자체 시험 규정을 변경하고 있다. 여러 대학 관계자들은 인터뷰에서 향후 구두시험 비중이 늘어날 것이라고 말했는데, 다만 이 과정에 투입될 시간과 노력이 엄청날 것이라고 봤다.
시험기간에 챗지피티를 활용하는 학생이 적지 않을 것으로 강사들은 내다본다. 그리고 강사들은 평가의 공정성을 둘러싼 잡음을 차단하기 위해 AI 콘텐츠 탐지기를 활용할 계획이다. <차이트> 취재진이 인터뷰한 대학 관계자 대부분은 탐지기 혹은 교원이 직접 AI 부정 사용으로 의심하는 사례를 전했다. 평소 맞춤법이 엉망인 함량 미달의 리포트를 제출하던 학생이 갑자기 세련된 보고서를 제출하거나, 수준이 널뛰기하는 리포트는 일단 AI 표절을 의심해야 한단다. 그리고 화상으로 구두시험을 치는 학생이 너무 표나게 끊어서 답변하는 것은 챗지피티를 띄운 디지털 기기를 화면에 보이지 않게 숨겨놓고 그대로 읽을 확률이 높다. 부정행위를 입증하거나 학생이 스스로 부정행위를 실토하면, 여느 부정행위와 마찬가지로 학생은 해당 과목에서 낙제점을 받는다.
AI 콘텐츠 탐지기의 신뢰성은 여전히 논란이 된다. 탐지기 자체는 아직 검증된 바 없다. 탐지기 제작 업체는 대학 로고를 동원해 자사 제품의 신뢰성을 홍보하느라 여념이 없다. 학술 분위기를 물씬 풍기는 다이어그램을 잔뜩 늘어놓으며 정확성 100%를 홍보하는 업체들도 있다. 그러나 막상 탐지기를 시험해보면 문제가 바로 드러난다. 챗지피티를 개발한 오픈에이아이(OpenAI)도 자체 개발한 AI 콘텐츠 탐지기를 공개했다. 하지만 오픈에이아이는 탐지기가 사람이 직접 작성한 내용과 AI가 작성한 내용을 모두 잘못 탐지할 수 있음을 인정했다.


▲ 표절 감식 소프트웨어로 유명한 턴잇인(Turnitin)도 AI콘텐츠 탐지기를 내놓았다. 턴잇인 갈무리

탐지기보다 빠른 AI 진화
턴잇인의 에릭 왕 부사장은 자체 AI 콘텐츠 탐지기가 사람 눈에 보이지 않는 유형을 텍스트에서 인지해낸다고 설명한다. “사람은 일직선이 아닌 추상적으로 자유로이 읽고 쓴다. 사람들은 지금까지 써왔던 것을 토대로 다음 단어를 선택하지 않는다. 반면 AI는 지금까지 써왔던 것을 토대로 다음 단어를 선택한다. AI는 확률 계산을 토대로 문장을 생성한다.” AI가 생성한 텍스트에는 특정 단어 주위에 특정 단어가 자주 사용된다는 것이다. 턴잇인의 AI 콘텐츠 탐지기는 이런 단어 관련성이 확인되면 이를 AI 작품으로 인지할 수도 있다고 한다.
그런데 AI는 콘텐츠 탐지기보다 더 빠른 속도로 진화하고 있다. 최근 연구결과에 따르면 턴잇인은 AI 최신 버전 지피티-4(GPT-4)가 생성한 콘텐츠의 경우 불과 54%만을 AI가 생성한 것으로 인지하는 것으로 밝혀졌다. 상상력을 조금만 발휘하면 AI 콘텐츠 탐지기도 어떻게든 속일 수 있다. 즉, 챗지피티에 AI 탐지기로 발각되지 않을 텍스트를 써달라고 할 수도 있다. 그러면 챗지피티는 탐지기가 사람이 직접 작성한 것으로 믿게 할 표현을 잔뜩 집어넣은 텍스트를 생성해낸다. (탐지기쯤은 쉽게 속일 수 있다. 챗지피티에 초콜릿에 관한 텍스트를 두 개 작성해달라고 요청하면서, AI 특유의 텍스트와 탐지기에 발각되지 않게 사람이 쓴 것 같은 텍스트를 원했다. AI 콘텐츠 탐지기는 첫 텍스트를 100% AI 작품으로 탐지했고, 두 번째 텍스트는 AI 생성을 탐지하지 못했다.)
AI 활용 여부가 항상 명확하게 밝혀지는 것도 아니고, 탐지기 결과를 항상 신뢰할 수 있는 것도 아니다. 바이로이트대학의 아그네스 코슈미더 경제정보학 교수는 소속 학부에 투명하고 적절한 AI 활용을 허용한다는 내용의 지침을 작성했다. 코슈미더 교수는 앞으로 탐지기 두 개를 사용해 AI 사용 여부를 가려낼 것이라고 한다. 탐지기 하나만 사용해서는 정확성이 담보되지 않는다는 것이다. “탐지기 두 개 모두 AI 부정행위로 의견이 일치하면 해당 학생이 AI를 활용했을 가능성이 크다.”
대다수 학생의 관심사는 AI 활용으로 받을 불이익이 아니다. 독일학생회에 문의한 결과, 이 주제는 아직 상담소에서 다뤄진 적이 없다고 했다. 하지만 강사들이 탐지기로 리포트 수천 건을 검토하는 학기 말이 되면 상황이 달라질 수 있다. 실제 AI를 부정하게 사용한 학생뿐만 아니라, 자신이 직접 작성했는데도 억울하게 의혹을 받는 학생 모두 AI 법정에 서게 될 수도 있다.
AI 탐지 소프트웨어 최대 업체 중 하나인 지피티제로는 자사 누리집에 만일의 경우를 대비해 최근 한 문장을 추가했다. “AI는 지속해서 발전하므로 완벽한 탐지기는 존재할 수 없다. 따라서 AI 콘텐츠 탐지 결과를 학생을 처벌하는 데 활용해서는 안 된다.”

ⓒ Die Zeit 2023년 제25호
Diesen Text hat eine KI geschrieben. Behauptet eine KI. Aber hat sie auch recht?
번역 김태영 위원

정기구독자는 과거 기사 전체와 2016년 6월 이후 온라인 기사 전체를,
온라인 회원은 과거 기사 일부와 2016년 6월 이후 온라인 기사 전체를 보실 수 있습니다.