인기 기자
"쓸 수 있는 데이터 부족…데이터 거래 산업 급성장할 것"
인기협, '데이터로 만드는 산업, 데이터로 만드는 것들' 간담회 열어
번역기 만드는데 1000만개 데이터 필요한데…저작권 문제에서 자유로운 데이터 적어
NIA 데이터 라벨링 사업·정부 공공데이터 확대 등 노력 지속…데이터 거래도 확대될 것
2020-07-31 14:04:59 2020-08-03 14:18:53
[뉴스토마토 배한님 기자] "인공지능(AI)을 학습시킬 데이터가 너무 부족합니다. 대화·책·번역·발화 등 언어 데이터가 많을 것 같은데 실제로는 거의 없다고 생각하시면 됩니다. 한국어와 영어 쌍으로 된 것은 쉽게 구할 수 있지 않나 하시는데요. 장담하는데 쉽게 구하지 못합니다."
 
언어 번역을 위한 AI용 데이터를 정제해 판매하는 플리토의 이정수 대표의 하소연이다. 이 대표에 따르면 범용 언어 번역기를 만드는 데 1000만개의 언어 데이터가 필요하고, 특수 영역 번역기를 만드는 데 100만개의 데이터가 필요하다. 이 대표는 "현재 AI 번역이나 음성 인식기를 만드는 곳이 많이 생겼는데 AI를 가르칠 데이터가 없어서 허덕이고 있다"고 덧붙였다.
 
정부가 디지털 뉴딜 정책을 펴면서 데이터 산업이 주목받고 있지만, 실제 산업에서 사용할 수 있는 데이터는 부족하다는 지적이 나왔다. 데이터 권리에 대한 체계가 확실히 자리 잡지 않아 저작권 문제없이 가져다 쓸 수 있는 데이터가 거의 없다는 것이다.
 
(왼쪽부터)류재준 네이버비즈니스플랫폼 이사, 김태훈 딥핑소스 대표, 이정수 플리토 대표, 고학수 서울대 교수가 31일 서울 강남구 엔스페이스에서 열린 '데이터로 만드는 산업, 데이터로 만드는 것들' 간담회에서 발표하고 있다. 사진/한국인터넷기업협회
 
한국인터넷기업협회는 31일 서울 강남구 엔스페이스에서 '데이터로 만드는 산업, 데이터로 만드는 것들' 간담회를 열고 데이터 산업의 가치와 향후 변화 양상 등에 대해 논했다. 
 
간담회에 참석한 업계 관계자들은 소유권 문제 때문에 실제로 사용할 수 있는 데이터가 부족하다고 지적했다. 흔히 위키피디아나 트위터 등 인터넷 환경과 소셜네트워크서비스(SNS) 내용 등을 공짜로 사용할 수 있는 '데이터'라고 인식한다. 하지만 오픈 소스나 공공 데이터가 아닌 이상 이를 사용했을 때 저작권 문제를 피하기 어렵다는 것이다. 
 
김태훈 딥핑소스 대표는 "다국적 기업들은 데이터 비식별화, 익명화가 얼마나 안전한지 법률 검토하는 데만 1년 넘게 걸린다"고 설명했다. 
 
한국은 아직 이런 데이터 권리에 대한 인식이 약하다. 최근에서야 사람들이 데이터 주권에 대해 알게 됐을뿐더러 제대로 된 법과 제도도 없다. 김 대표는 "데이터 비식별화와 관련된 부분이 법적으로 상당히 모호하고 난해한 부분이 많다 보니 저작권법 이후로 최대 난제라는 이야기가 나올 정도"라고 덧붙였다. 
 
이런 상황에서 적법하지 않은 데이터를 사용하는 경우도 있었다. 이 대표는 "국내에서는 전문번역업체가 번역가의 작업물을 판매해 돈을 벌기도 하고, 블로그처럼 인터넷에 공개된 글을 사용하기도 했다"며 "유럽이나 미국만 가도 이런 부분이 매우 엄격하게 적용된다"고 꼬집었다. 
 
데이터가 4차 산업혁명 시대의 핵심 자원인 만큼 민관 모두 이런 문제를 해결하기 위해 노력하고 있다. 한국정보화진흥원(NIA)은 데이터 라벨링으로 데이터 구축 사업을 진행하고 있고, 정부도 공공데이터를 확대하고 있다. 정부는 디지털 뉴딜 정책을 진행하며 막대한 자금을 데이터 확보에 쏟고 있다. 류재준 네이버비즈니스플랫폼 이사는 "한국정보화진흥원에서 빅데이터 플랫폼 산업을 추진하면서 각 산업 분야별로 데이터를 모으는데 100억원 규모의 과제를 추진하고 있다"고 했다. 
 
김 대표도 "이런 정책이 쭉 이어진다면 양질의 데이터가 생성될 것"이라며 "당장은 어떤 목적을 가지고 어떤 품질의 데이터를 모아야 좋은지 불분명하지만, 내년부터는 한 단계 더 나아가 활용할 만한 파생 데이터도 많이 나올 것"이라고 강조했다.  
 
정부 주도로 데이터양이 급증하고 있는 만큼 관련 산업도 빠르게 발전할 전망이다. 데이터 거래에 대한 인식도 높아지고 있다. 데이터는 공짜라고 여기거나 특정 집단의 소유물이라 외부에 공개되지 않을 것이라는 인식에서 최근 데이터의 가치와 주권에 대한 관심이 부쩍 늘었기 때문이다.
 
이 대표는 "8년 전 사업을 시작할 때는 많은 분이 그걸 너희에게서 왜 사냐고 질문했지만, 2016년 말 언어 인공지능이 본격적으로 시작되면서 언어 데이터를 판매하는 곳이 많아졌다"며 "지금은 데이터 판매자와 제공자가 중간에서 만나는 단계까지 왔다"고 말했다. 그는 "'나는 학교에 간다'와 같은 한 문장이 외부 거래될 때 100~1000원 정도에 판매된다"고 덧붙였다. 
 
다양한 아이디어와 접목된 신산업에 대한 기대도 크다. 류 이사는 "늘어난 데이터를 지자체에서 활용해 해커톤 등을 열면 다양한 아이디어와 접목된 서비스가 하나하나 나올 것"이라고 말했다. 
 
배한님 기자 bhn@etomato.com
 

ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지

지난 뉴스레터 보기 구독하기
관련기사