[AI와 저작권법] 내가 만든 AI 모델은 합법일까, 불법일까?

2023/02/14   |  3 mins
AI와 저작권법
 
  • 헤일리 (콘텐츠 커뮤니케이션)

    이 글은 업스테이지 AI Education & Content 팀의 교육 자료를 바탕으로 작성되었습니다.

  • AI를 다루고 계신 분

    서비스 향 AI 모델 제작에 관심 있는 분

    AI 관련 저작권법이 궁금하신 분

  • 좋은 AI 모델을 만들기 위해 필수적인 대량 학습, 이에 사용되는 여러 데이터들은 저작권법을 준수하여 활용되고 있을까요? 과제와 데이터가 주어지는 교육 환경 밖에서 서비스 향 AI 모델을 합법적으로 만들기 위해 알아야 하는 저작권법에 대해 소개합니다.

  • ✔️ 저작권법, 왜 알아야 할까?

    ✔️ 저작권법이란?

    ✔️ 합법적인 데이터 사용 방안

    ✔️ AI를 하다보면 자주 마주칠 수 있는 저작권 사례

    ✔️ 저작권법의 회색지대, AI

최근 ChatGPT, 미드저니(Midjourney) 등 생성 AI가 연일 화제를 모으며 AI의 저작권에 대한 관심이 높아지고 있습니다. 그렇다면 우리가 AI 모델을 만들 때 사용하는 여러 데이터들은 저작권법을 준수하여 활용되고 있을까요?

이번 콘텐츠에서는 과제와 데이터가 주어지는 교육 환경 밖에서 서비스향 AI 모델을 합법적으로 만들기 위해 알아야 하는 저작권법에 대해 소개합니다. 특히 NLP(자연어 처리) 기술을 기반으로 한 AI 모델의 데이터 제작 과정에서 흔히 접할 수 있는 사례와 궁금증을 함께 알아봅니다.


저작권법, 왜 알아야 할까?

  • 좋은 AI 모델은 좋은 데이터로부터 나온다.

학교와 같은 교육 환경에서 AI 모델을 개발할 때는 보통 선생님이나 커리큘럼 운영진 분들이 저작권에 문제가 없는 데이터와 태스크를 준비해주시기에 이에 대해 크게 고민하지 않아도 됩니다. 하지만 실제 현업에 나오게 되면 내가 풀고 싶은 문제를 푸는 모델을 만들기 위해서는 적절한 데이터를 스스로 찾아서 만들어야 합니다. 이를 단순하게 생각하여 웹에 있는 데이터를 무작정 크롤링해 모델 학습에 활용하면 자신도 모르게 저작권법을 위반할 수 있는 것이죠. 따라서 우리는 AI 모델 개발에 필요한 데이터를 제작하기 이전에 저작권법에 대해 알아야 합니다.

뿐만 아니라 학계에서도 저작권과 라이센스에 대해 주목하고 있습니다. 논문 내용의 지적 재산권 위배 여부나 데이터 수집 방식 등에 대한 질문을 별도로 하고 있기 때문에 학계에 계신 분들도 저작권을 바르게 이해하고 활용하는 것이 필요합니다.

학계에서도 주목하고 있는 저작권 (출처: 자연어처리 국제공동 컨퍼런스, ACL-IJCNLP 2021)

학계에서도 주목하고 있는 저작권 (출처: 자연어처리 국제공동 컨퍼런스, ACL-IJCNLP 2021)

  • AI와 창작자 모두를 고려한 좋은 방향의 법 개정을 위해 관심을 가질 필요가 있다.

저작권에 관심을 가져야 할 두 번째 이유로는 아직 저작권법이 AI 모델 개발을 고려하지 않은 부분이 많기 때문입니다. 역설적일 수 있으나 AI의 긍정적인 발전을 위해 모두가 관심 가질 필요가 있는 것이죠. 좋은 AI를 만들기 위해서는 대량 학습이 필수적이지만, 아직 AI 학습용 데이터 활용 시 저작권 침해에 관한 명확한 기준이 없습니다.

저작권법 제1조 (목적)을 살펴보면 “이 법은 저작자의 권리와 이에 인접하는 권리를 보호하고 저작물의 공정한 이용을 도모함으로써 문화 및 관련 산업의 향상발전에 이바지함을 목적으로 한다” 라고 기술되어 있습니다. 이를 찬찬히 읽어보면 알 수 있듯이 현재의 저작권법은 아직 “AI 산업”을 고려하고 있지 않습니다. 왜냐하면 법이 제정될 당시에는 AI가 지금처럼 많은 주목을 받지 않았고, 성능 또한 현재의 수준에 미치지 못했기 때문입니다.

2020년부터는 이러한 현재의 흐름을 반영해 AI 분야 저작권 면책조항이 신설된 저작권법 개정안이 추진되고 있긴 하지만, AI와 창작자 모두를 고려한 좋은 방향의 법 개정을 위해서는 지속적인 관심이 필요합니다.



저작권법이란?

그렇다면 저작권이란 무엇일까요? 정의를 살펴보면 다음과 같습니다.

  • 저작권: 사람의 생각이나 감정을 표현한 결과물(저작물)에 대하여 창작자에게 주는 권리로 “창작성”이 있다면 별도의 등록절차 없이 자연히 발생합니다.

    (예: 아티스트 A가 그린 그림의 저작권은 저작자인 A에게 자연히 귀속된다.)

그렇다면 저작물에 대해 법에서는 어떻게 기술하고 있을까요?

  • 저작물: 사람의 생각이나 감정을 표현한 결과물

    1. 소설ᆞ시ᆞ논문ᆞ강연ᆞ연설ᆞ각본 그 밖의 어문저작물

    2. 음악저작물

    3. 연극 및 무용ᆞ무언극 그 밖의 연극저작물

    4. 회화ᆞ서예ᆞ조각ᆞ판화ᆞ공예ᆞ응용미술저작물 그 밖의 미술저작물

    5. 건축물ᆞ건축을 위한 모형 및 설계도서 그 밖의 건축저작물

    6. 사진저작물(이와 유사한 방법으로 제작된 것을 포함함)

    7. 영상저작물

    8. 지도ᆞ도표ᆞ설계도ᆞ약도ᆞ모형 그 밖의 도형저작물

    9. 컴퓨터프로그램저작물

이처럼 여러 종류의 저작물이 있는데, AI를 다루시는 분들은 텍스트와 이미지 저작물에 관한 이야기는 많이 들어보셨을 것입니다. 어문, 음악, 영상, 사진 저작물 등 AI 모델 개발에 필요한 부문들 또한 저작물로 보호되고 있습니다.

그런데 저작권법에 의해 보호받지 못하는 저작물도 있습니다.


  • 저작권법에 의해 보호받지 못하는 저작물

  • 헌법ᆞ법률ᆞ조약ᆞ명령ᆞ조례 및 규칙

  • 국가 또는 지방자치단체의 고시ᆞ공고ᆞ훈령 그 밖에 이와 유사한 것

  • 법원의 판결ᆞ결정ᆞ명령 및 심판이나 행정심판절차 그 밖에 이와 유사한 절차에 의한 의결ᆞ결정 등

  • 국가 또는 지방자치단체가 작성한 것으로서 제1호 내지 제3호에 규정된 것의 편집물 또는 번역물

  • 사실의 전달에 불과한 시사보도


주로 국가, 또는 지방자치단체가 작성한 창작물이 이에 해당하며, 창작성이 있다고 보기 어려운 시사 보도가 포함됩니다.

그럼 지금까지의 내용을 바탕으로 저작권에 대해 실생활에서 생길 수 있는 의문들을 되짚어보겠습니다.


[Case 1]
Q. 판례 검색 서비스를 제공하는 모델을 만들어서 배포하려고 하는데 괜찮을까요?

A. 네, 가능합니다. 판례는 저작권법에 의해 보호받지 못하는 저작물로 규정되어있기 때문에 이를 기반으로 영리 목적의 서비스를 만들거나 연구 목적으로 활용하여도 저작권법에 위배되지 않습니다.

[Case 2]
Q. 업스테이지 블로그 콘텐츠가 너무 인상 깊어서 댓글을 남겼어요. 이 댓글의 저작권은 저에게 있나요?

A. 댓글의 내용에 따라 다릅니다. “너무 좋았어요!” 와 같이 누구나 보편적으로 작성할 수 있는 문장이라면 저작권의 보호받지 못하나, “창작성”이 인정되는 수준의 문장에는 저작권이 부여됩니다.


예를 들어 헤밍웨이가 썼던 여섯 단어의 아주 짧은 소설과 같은 경우에는 창작성이 인정되기 때문에 헤밍웨이가 저작권을 갖게 되는 것입니다.

그렇다면 창작성이 인정되는 저작물에는 저작권이 자연히 발생하는데, AI 모델 학습을 위한 데이터는 어떻게 해야 올바르게 쓸 수 있는 것인지 더 자세히 알아보겠습니다.


합법적인 데이터 사용 방안

1. 저작자와의 협의

저작권자와 직접 교섭하여 이용 방식에 대해 협의하는 방법입니다. 보통 홈페이지에 보면 저작물에 대해 협의할 수 있는 연락처나 이메일 주소가 적혀져 있는데 이를 통해 교섭하여 협의를 진행하면 됩니다. 이용 방식 협의에는 여러가지 방안이 있는데 한국저작권위원회가 명시한 계약서의 내용에 따르면 크게 저작물 이용의 허락을 받는 것이나 저작재산권을 양수받는 것 등의 방안이 있습니다.

위 방안의 의미를 해석하자면 다음과 같습니다.

(1) 저작재산권 독점적 / 비독점적 이용허락

  • 독점적 이용허락: 저작자는 계약을 체결한 이용자에게 데이터 이용에 대한 “독점적” 인 권리를 행사하는 것을 허락하는 것

  • 비독점적 이용허락: 저작자는 계약을 체결한 이용자 외에도 데이터 이용 계약을 맺을 수 있음

(2) 저작재산권 전부/일부에 대한 양도

자연 발생하는 저작재산권의 전부 혹은 일부를 양도할 수 있는 권리입니다. 저작재산권의 전부 혹은 일부를 양수받을 수 있으며, 일정한 기간을 정해 양수받는 것도 가능합니다.

그렇다면 일일이 계약을 맺고 사용하는 것 외에 다른 방식은 없을까요? 저작자와 이용자 모두에게 효율적인 방안이 있는데 “라이센스”가 그 역할을 합니다.


2. 라이센스

합법적으로 데이터를 사용할 수 있는 두 번째 방법은 저작자가 명시한 이용허락 규약, 즉 ‘라이센스’를 활용하는 것입니다. 라이센스는 저작자에게 이용 허가를 요청하지 않더라도 저작자가 제안한 특정 조건을 만족하면 활용할 수 있게 한 규약입니다.

라이센스를 발행하는 단체는 다양할 수 있는데 그 중 가장 유명한 것은 Creative Commons라는 비영리 단체에서 제공하는 ‘CCL’이 있고, 이를 기반으로 국내에는 문화체육관광부에서 제공하는 ‘공공누리’가 있습니다.

  • CCL이 나타내는 의미

  • BY: Attribution

  • ND: NoDerivatives

  • NC: NonCommercial

  • SA: ShareAlike

국제적으로 많이 활용되는 CCL (출처: Creative Commons 홈페이지)

이중 CC-BY-NC-SA의 대표적인 사례로는 ‘나무위키’가 있습니다. AI 모델 개발에 나무위키의 데이터를 활용하고자 할 때에는 다음과 같은 조건에서 활용할 수 있습니다.

[Case 3]
Q. 나무위키 데이터를 크롤링해서 MRC(Machine Reading Comprehension, AI 알고리즘이 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 기술) 데이터셋 제작을 한 이후에 개인 깃헙을 통해 배포하는 것이 가능한가요?

A. 학교 소속이라면 비영리 목적으로 간주되므로 가능합니다. 하지만 배포하더라도 반드시 원 데이터의 라이센스인 CC-BY-NC-SA를 부착해야 하고, 원 데이터의 출처를 명시해야 합니다.


또 다른 예시로 CC-BY-ND를 살펴보겠습니다. 이는 저작자 표시를 의미하는 BY와 변경 금지의 ND가 합쳐져있는 라이센스인데요. 이것의 대표적인 예시로는 한국어 NLP를 하시는 분들이라면 많이 아시는 ‘KorQuAD라는 데이터셋이 이러한 라이센스를 달고 배포하고 있습니다.

[Case 4]
Q. KorQuAD의 질문만 바꿔서 새롭게 MRC 데이터셋을 제작한 이후에 개인 깃헙에 배포해도 될까요?

A. 변경금지 조건이 걸려있기 때문에 KorQuAD의 지문, 질문, 정답쌍을 변경하여 공개하는 것은 불가능합니다.


그 외에 AI 모델을 개발하다보면 자주 마주칠 수 있는 저작권 관련 사례에는 어떤 것들이 있을까요?

AI를 하다보면 자주 마주칠 수 있는 저작권 사례

뉴스 데이터의 이용

먼저 뉴스 데이터도 AI 모델 개발시 흔하게 접할 수 있는 사례입니다. 하지만 뉴스 기사의 저작권은 언론사에 있다는 사실을 인지해야 합니다.

국내 언론사의 저작권 표기 사례

현재 한국언론진흥재단에서는 대부분 언론사의 저작권을 위탁해서 관리하고 있습니다. 따라서 뉴스 기사를 합법적으로 사용하기 위해서는 해당 기사를 제공하는 언론사가 한국언론진흥재단에 저작권 위탁을 맡겼을 경우, 재단 측에 문의하고 아니라면 직접 언론사에 콘텐츠 사용 범위와 계약 조건에 대해 문의해야 합니다. 보통 메이저 언론사는 저작권을 한국언론진흥재단에 위탁하지 않고 관리하고 있는 경우가 많다는 점을 참고하면 좋습니다. 혹은 아주 드물게 CCL이 적용된 언론사(ex. 위키트리)가 있는 경우도 있으니 이용 목적에 따라서 이를 확인하는 것이 중요합니다.

간혹 KDX(한국데이터거래소)에서 무료로 뉴스 데이터를 게시하는 경우도 있는데요. 이 때 어디까지 이 데이터를 활용할 수 있을지에 대한 궁금증이 생길 수 있습니다.

[Case 5]

Q. 0원에 구매한 데이터는 내 마음대로 이용할 수 있을까요?
A. 이 경우에는 데이터 판매회원이 정한 이용약관에 따라 다릅니다.

KDX 한국데이터거래소

출처: KDX 한국데이터거래소

KDX는 기본적으로 아래의 가, 나, 다 조항의 공통 이용 범위 내에서만 사용 가능하며 만약 판매 회원이 추가 조건을 더 걸었다면 공통 이용 범위 외의 다른 이용도 불가능 할 수 있으니 잘 살펴보아야 합니다.


뉴스 기사의 제목

반면, 놀랍게도 뉴스 기사의 제목은 저작물로서의 가치를 인정받지 못하기 때문에 저작권법의 보호를 받지 못합니다. 이것은 한국저작권위원회가 발행한 “신문과 저작권”이라는 책자에도 명시되어 있습니다.

출처: 신문과 저작권, 한국저작권위원회, 2009

따라서 제목만 보고 뉴스 기사가 어떤 카테고리에 속하는지 예측하는 모델을 만들고 싶을 때는 그 데이터를 합법적으로 활용할 수 있습니다.

공정 이용 (Fair-use)

아래의 경우에 대해서는 저작권자의 허락을 받지 않고도 저작물을 이용할 수 있습니다. 보통 교육을 목적으로 할 경우에는 이러한 공정 이용 목적 안에 있기 때문에 저작물에 대해 크게 구애 받지 않습니다.

  • 교육, 등등

  • 재판절차 등에서의 복제

  • 정치적 연설 등의 이용

  • 학교 교육 목적 등에의 이용

  • 시사보도를위한이용

  • 공표된 저작물의 이용

  • 영리를 목적으로 하지 않은 공연ᆞ방송

  • 사적 이용을 위한 복제

  • 도서관 등에서의 복제

  • 시험 문제로서의 복제

  • 시각장애인 등을 위한 복제

  • 방송사업가의 일시적 녹음ᆞ녹화

  • 미술ᆞ사진ᆞ건축저작물의 전시 또는 복제

  • 번역 등에 의한 이용

  • 시사적인기사및논설의복제

  • 프로그램 코드 역분석

  • 정당한 이용자에 의한 보존을 위한 프로그램 복제

    -출처: 한국저작권위원회

저작권법의 회색 지대, AI

많은 부분을 저작권법에서 규정하고 있는 것처럼 보이지만 아직 AI와 관련된 저작권법은 갈 길이 멉니다. 최근 화두가 되고 있는 ChatGPT가 생성한 데이터는 저작물로 인정될 수 있을까요? 이것이 만약 가능하다면 우리는 ChatGPT가 생성한 데이터에 대해 어떤 라이센스를 부착해야 하고 어디까지 이용할 수 있을지, 또 뉴스 기사를 바탕으로 새로운 결과를 내는 AI 모델의 저작권은 어떻게 되는 것인지 등 여전히 우리가 풀어가야 할 부분들이 많습니다.

따라서 명확한 관련 규범이 마련될 때까지는 우선 저작물의 저작권과 라이센스 여부를 확인해보고, 이용 가능한 범위를 꼼꼼히 따져봐야 합니다. 이번 콘텐츠에서는 CCL 라이센스에 대해 주로 살펴봤지만, 다른 종류의 라이센스도 많기 때문에 데이터 활용 전 반드시 살펴보는 것이 필요합니다.

AI를 다루는 모든 분들이 합법적인 경계 내에서의 데이터 제작 방식을 이해하여 AI 모델을 더 나은 방향으로 발전시키고, 또 현재 저작권법의 한계에 대해서도 관심을 가질 수 있는 계기가 되길 바랍니다.

 
 
 
  • 2020년 10월 설립한 업스테이지는 이미지에서 원하는 정보를 추출해 이용할 수 있는 OCR기술을 비롯, 고객 정보와 제품 및 서비스 특징을 고려한 추천 기술, 의미기반 검색을 가능케하는 자연어처리 검색기술 등 최신 AI 기술을 다양한 업종에 맞춤형으로 손쉽게 적용할 수 있는 노코드-로코드 솔루션 ‘Upstage AI Pack’을 출시, 고객사들의 AI 혁신을 돕고 있다. Upstage AI Pack을 이용하면 데이터 가공, AI 모델링, 지표 관리를 쉽게 활용할 수 있을 뿐 아니라 지속적인 업데이트를 지원, 상시 최신화 된 AI 기술을 편리하게 사용할 수 있다. 더불어, AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육콘텐츠 사업에도 적극 나서고 있다.

    업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.

    업스테이지 홈페이지 바로가기

 
Previous
Previous

문자를 인식하는 OCR이 탄생하기까지 (업스테이지 사내 OCR 이미지 데이터 수집 챌린지)

Next
Next

OCR 모델 학습을 누구나 쉽고 강력하게! - [스타뷰 Vol. 5] 업스테이지 라벨링 스페이스의 창현님 & 인하님 & 주현님