글로벌 빅테크 기업들이 인공지능(AI) 개발 과정에서 저작권 소송에 휘말려 있는 건 잘 알려진 사실입니다. 이들 기업은 자사 생성형 AI의 거대언어모델(LLM) 학습 과정에서 무단으로 저작권이 있는 데이터를 이용했다는 의혹을 받고 있습니다.
구글과 오픈AI, 앤트로픽 모두 마찬가지입니다. 책과 기사, 학술지, 온라인 게시물 등이 허락 없이 학습에 쓰였다는 문제 제기가 이어졌고 작가나 예술가, 출판사들은 저작권법에 따른 책임과 보상을 요구했습니다. 웹사이트 하단에 <위 콘텐츠는 인공지능(AI) 학습에 사용될 수 없습니다> 같은 문구가 표기되는 건 이 때문입니다.
한국에서도 방송협회가 오픈AI를 상대로 뉴스콘텐츠 무단 이용에 대한 소송을 지난달 제기한 바 있습니다. 지상파 방송 3사의 뉴스콘텐츠가 챗GPT 학습 과정에서 무단 활용됐다는 점을 문제 삼은 겁니다. 방송사들이 글로벌 빅테크 기업을 상대로 제기한 첫 번째 소송입니다.
(사진=뉴시스)
그런데 최근 빅테크 기업이 자사 저작권을 내세운 일이 발생해 눈길을 끕니다. 지난 1일(현지시간) 앤트로픽의 클로드 코드의 내부 소스가 직원의 실수로 유출된 사고가 났습니다. 이 내부 소스는 개발자 커뮤니티에서 빠르게 퍼졌고, 이를 진화하기 위해 앤트로픽은 자사 코드와 프로그램에 대한 저작권을 내세웠습니다.
앤트로픽은 지난해 9월 작가와 출판사들이 낸 집단소송에서 15억달러(약 2조3000억원) 배상 명령을 받은 적이 있습니다. 지난 3월에는 유니버설뮤직그룹과 콩코드 등이 2만곡이 넘는 저작권 음악을 불법 다운로드해 모델 학습에 썼다며 소송을 제기한 바 있습니다.
이번 일은 글로벌 빅테크 업계에서 저작권이 어떻게 작동하는지 보여주는 것만 같습니다.