개인정보위 "AI 학습용 데이터 개인정보보호 강화"

개인정보위 검토로 약 1억8천건 데이터 추가 비식별 처리

2021-06-23 14:29:19 ㅣ 2021-06-23 14:29:19

[뉴스토마토 배한님 기자] 개인정보보호위원회(개인정보위)가 올해 '데이터 댐'의 일환으로 추가된 약 5억건의 인공지능(AI) 학습용 데이터에 개인정보와 관련한 문제가 없는지 점검에 나섰다.

개인정보보호위원회 전체회의. 사진/개인정보보호위원회

개인정보위는 23일 한국인터넷진흥원(KISA)와 과학기술정보통신부(과기정통부)가 추진하는 AI 학습용 데이터 구축사업이 개인정보 관련 법규의 정합성을 준수할 수 있도록 지원 중이라고 밝혔다.

과기정통부는 지난 2017년부터 AI 학습용 데이터를 대규모로 모아 인공지능 허브(aihub.or.kr)에 개방해왔다. 올해는 역대 최대 규모인 170종 4억8000만건의 학습용 데이터가 지난 18일부터 오는 30일까지 순차적으로 공개된다.

개인정보위는 AI 학습용 데이터 구축 단계에서 KISA를 통해 샘플 표본 데이터 63종에 대해 개인정보 포함 여부 및 재식별 가능성 등을 검토했다. 그 결과 일부 인물 및 차량번호가 식별 가능한 이미지 영상 데이터와 일부 문자 데이터에 대해 비식별 조치를 추가로 요청했다. 이에 과기정통부와 한국지능정보사회진흥원(NIA)은 비식별 조치 전문기업과 65종 1억8000여 건의 AI 학습용 데이터를 최종 점검하고 가명처리를 추가 진행했다.

과기정통부와 개인정보위, KISA, NIA는 인공지능 허브에 오는 9월 말까지 3개월간 온라인 창구를 운영해 가명처리가 미흡한 데이터 제보를 받아 개선할 계획이다.

배한님 기자 bhn@etomato.com