전체 기자
닫기
이성휘

빅데이터로 보는 판세…대세 문재인, 추격하는 홍준표

“자발적 데이터, 여론조사보다 정확” vs “대중 관심도에 불과, 지지도와 달라”

2017-05-07 15:28

조회수 : 14,793

크게 작게
URL 프린트 페이스북
[뉴스토마토 이성휘 기자] 지난 3일 이후 대선 여론조사 결과를 공개할 수 없는 소위 ‘블랙아웃’ 기간이 이어지면서 대안으로 키워드별 인터넷 검색 빈도를 비교해주는 빅데이터 분석에 대한 정치권의 관심이 커지고 있다.
 
기존 여론조사 방식의 경우 조사 주체가 조사의 시점이나 조사 방식에 개입해 도출 결과에 일정 부분 영향을 미칠 가능성이 있다. 또한 여론이나 사회적 분위기가 한 쪽으로 쏠릴 경우 침묵하는 소수를 제대로 못 잡아내는 한계도 분명하다.(침묵의 나선이론)
 
국내에서는 ‘이명박 대세론’이 위세를 떨친 지난 2007년 대선에서 당시 대통합민주신당 정동영 후보가 26.1%를 득표해 대선 전 여론조사들보다 10% 가까이 더 확보한 사례가 있다. 소위 ‘샤이 진보’의 위력으로, 박근혜 탄핵으로 실시된 이번 조기 대선에서는 역으로 ‘샤이 보수’의 표심이 작동하는 것 아니냐는 관측이 나온다.
 
반면 빅데이터의 경우 유권자들이 검색하는 키워드 중심으로 통계를 잡아내 실제 유권자들이 관심을 가지고 있는 현상을 알려준다. 지난해 미국 대선의 도널드 트럼프 대통령 당선, 영국의 EU탈퇴 ‘브렉시트’ 결정 등이 빅데이터 분석예측이 성공한 대표적 사례로 언급된다.
 
한 정치권 관계자는 “검색엔진을 통한 후보자 관심도 분석은 자기가 관심 있는 후보자에 대해 자발적으로 찾아 들어가 기사를 검색하고 보는 것”이라며 “수동적인 여론조사보다 빅데이터가 훨씬 정확성이 높다”고 주장했다. 일종의 여론조사 선행지수로 사용이 가능하다는 이야기마저 나온다.
 
출처/구글 트렌드
 
7일 오후 1시 기준 구글 트렌드 ‘시간 흐름에 따른 관심도 변화’에서 그런 모습이 일부 관측된다. 구글 트렌드는 검색 빈도가 가장 높은 지점을 100으로 정한 뒤 나머지 빈도를 상대적으로 수치화해 보여준다.
 
4월7일에서 5월5일까지 한 달간 트렌드 변화를 보면 더불어민주당 문재인 후보는 31에서 100으로 상승했다. 같은 기간 자유한국당 홍준표 후보는 12→84, 바른정당 유승민 후보는 5→51, 정의당 심상정 후보는 4→30으로 각각 올랐다. 국민의당 안철수 후보만 77→47로 하락했다.
 
추세와 주요 키워드로 보면 후보간 차이점은 더욱 부각된다. 문재인 후보의 경우 공식 선거운동이 시작된 지난달 17일을 기점으로 1위에 올라 크게 하락하는 일 없이 꾸준한 상승세를 이어왔다. 주요 키워드도 ‘문재인 1번가’, ‘타임지 문재인’ 등 긍정적이다.
 
홍준표 후보 역시 상승세다. 대선후보 TV토론회가 진행된 지난달 22일을 전후해 국민의당 안철수 후보를 추월했고, 5월2일에는 문재인 후보마저 일시적으로 제친다. 기존 여론조사에서 5월 초에야 나타난 안 후보와의 ‘실버크로스’가 빅데이터 지표에서는 4월 하순 발생한 점이 주목된다. 주요 키워드로는 ‘홍준표 돼지(발정제)’, ‘빅데이터’ 등이다. 최근 홍 후보가 빅데이터 결과를 인용해 막판 대역전을 주장하고 있는 것과 연관이 있는 것으로 풀이된다.
 
안철수 후보는 각 당의 경선이 마무리된 4월 초 대중의 관심도가 폭발적으로 늘어났다. 그러나 17일 이후 하락세로 지난 5일에는 바른정당 유승민 후보에게도 관심도가 밀렸다. 주요 키워드는 ‘안철수 유치원’, ‘안철수 예비군’으로 논란에 휩싸였던 이슈들이다.
 
바른정당 유승민 후보와 정의당 심상정 후보는 첫 TV토론이 있었던 13일을 기점으로 상승세를 보였다. 다만 5월초 들어 유 후보가 단체 탈당 사태 등으로 검색량이 부쩍 늘어났다면, 심 후보는 완연한 하락세다.
 
지난 30일간 지역별 관심도(왼쪽)와 최근 7일간 지역별 관심도(오른쪽). 파란색은 더불어민주당 문재인 후보, 녹색은 국민의당 안철수 후보, 붉은색은 자유한국당 홍준표 후보에 대한 검색이 많은 지역을 의미한다. 출처/구글 트렌드
 
조사기간을 최근 7일로 한정할 경우 주요 키워드와 지역민심의 변화가 관측돼 주목된다. 문재인 후보의 경우 캠프에서 ‘최악의 가짜뉴스’로 규정한 ‘SBS 세월호’가 관련 검색어 1위에 올라있다. 즉 캠프가 우려한 것처럼 기존의 긍정적인 키워드들이 논란이 있는 키워드로 교체된 셈이다.
 
홍준표 후보는 ‘양화대교’와 ‘인공기’가 올라가 있고 ‘돼지 발정제’ 관련 키워드는 순위에서 사라졌다. 일단 부정적인 키워드는 떨쳐낸 것으로 보인다. 안철수 후보도 ‘걸어서 국민 속으로’라는 키워드가 1위에 올라 분위기 반전에 성공했다. 유승민 후보는 ‘딸 성희롱’이, 심상정 후보는 바른정당에 잔류한 황영철 의원이 1위에 올라있다. 심 후보가 바른정당 집당 탈당사태를 강하게 비판한 것과 연관된 것으로 보인다.
 
지역별 관심도에서도 흥미로운 변화가 나타난다. 30일 단위에서는 전국 대부분 지역에서 문재인 후보에 대한 관심이 높고 호남과 인천 등 일부 지역에서 안철수 후보가 앞서 있다. 그러나 최근 7일만 보면 영남 지역에서 홍 후보에 대한 관심이 부쩍 높아진 것으로 확인된다.
 
구글 트렌드와 유사한 네이버의 ‘데이터랩 트렌드’ 임시 서비스에서도 비슷한 결과가 나타났다. 네이버에서 특정 검색어가 검색된 횟수를 주간 합산해 조회기간 내 최대 검색량을 100으로 하고 상대적 지표로 표기하는 방식이다.
 
지난 달 10일 안철수 52, 문재인 33, 홍준표 30이었던 검색량은 17일 문재인 100, 안철수 81, 홍준표 78로 문 후보가 1위에 올라선다. 그 다음 주인 24일에는 문재인 76, 홍준표 68 안철수 65로 홍 후보마저 안 후보를 제친다. 문 후보와 홍 후보의 검색량 차이는 22에서 8까지 줄어들었다.
 
두 결과를 종합하자면 문재인 후보의 우세가 이어지고 있지만, 홍 후보가 맹추격하고 있는 셈이다. 거의 날마다 구글트렌드를 인용하고 있는 홍 후보는 6일 자신의 페이스북에서 “이제 구글트렌드도 안정적으로 골든크로스를 이루고 있다”면서 “이제 압승을 준비하고 있다”고 자신했다.
 
다만 빅데이터 조사는 후보자와 관련된 긍정적인 키워드와 부정적인 키워드 모두 합산되기에 여론조사 지지도처럼 해석하는 것은 무리라는 반론도 만만치 않다. 실제 안철수 후보의 경우 4월초 다른 후보들과 비교해 두 배 수준의 압도적으로 높은 검색량을 기록했지만 여론조사 지지율은 문 후보와 경합하는 수준에 그쳤다. 부정적인 검색어 효과다. 홍 후보 역시 각종 막말과 논란으로 대중적 관심도는 일단 높아졌지만, 그것을 바로 지지도로 환산하기는 어려워 보인다.
 
빅데이터 전문가 유승찬 스토리닷 대표는 “사회과학론적으로 빅데이터와 여론조사 결과의 상관관계를 밝히는 연구결과는 아직 나오지 않았다”며 “특히 구글 트렌드의 경우 해외와 달리 국내에서는 아직 대중적 사용량이 미비해 대표성이 있다고 보기에는 어렵고, 네이버도 아직 베타테스트 수준으로 미비한 부분이 있다”면서 국내 빅데이터 연구의 한계를 지적했다.
출처/네이버 데이터랩 트렌드
 
이성휘 기자 noirciel@etomato.com
  • 이성휘

  • 뉴스카페
  • email