■요약
PART 1 빅데이터가 일으킬 인문학 혁명
전 세계 주요 도서관 서가에 꽂혀있는 모든 책을 읽을 수 있는 로봇이 있다고 가정해보자. 이 엄청난 양의 디지털 기록, 즉 빅데이터와 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 저자는 이제 인간을 이해하기 위해서는 책을 넘어서 데이터를 읽어야 하는 시대가 왔다고 주장한다. 디지털 시대의 인문학이란 곧 데이터를 읽는 새로운 눈이다. 쉽게 말하면 빅데이터는 인류의 오랜 염원이었던 혁신적인 관찰도구를 의미한다.
PART 2 데이터 오디세이: 언어는 어떻게 진화하는가
왜 어떤 불규칙동사는 살아남고, 어떤 불규칙동사는 많은 영어 학습자들을 배신하고 규칙화의 길을 가게 되었을까? 언어학자들의 가설은 불규칙동사들이 빈도가 높기 때문에, 다시 말해서 자주 쓰이기 때문에 살아 남았다는 것이다. 만약 이것이 사실이라면 언어, 넓게는 인류의 문화 역시 자연선택에 의해 진화한다는 명백한 증거가 될 것이다. 저자들은 구글 엔그램 뷰어를 통해 고대부터 현재까지 영어 동사의 사용 빈도와 규칙화의 상관관계를 조사했다. 그 결과 영어에서 빈도가 가장 높은 12개의 동사는 규칙화의 길을 가지 않았다는 사실이 드러났다. 사용 빈도가 생존을 결정하는 가장 중요한 요소였던 것이다. 빅데이터 분석은 언어의 진화 과정을 규명할 수 있다는 가능성을 품고 있다.
PART 3 데이터로 사전 만들기
일반적으로 사전은 빈도가 높은 단어들은 거의 완벽하게 찾아내지만 희귀한 것들이 나오면 어려움을 겪는다. 언어의 3분의 2는 모두 암흑물질, 즉 실질적으로 활용되지 않는 언어다. 따라서 사전들이 드문 단어를 놓친다면 거의 대부분의 단어를 놓치는 셈이다. 영어는 아직도 상당 부분이 전인미답의 대륙이다. 이처럼 사전편찬학의 한계가 갈수록 명백해지면서 전통적인 사전들도 하나둘씩 빅데이터의 세계로 뛰어들고 있다.
PART 4 침묵의 소리: 억압과 검열의 역사
'구글 엔그램 뷰어'의 검열·탐지 기술은 우리가 알고 있는 역사적 사실과 질적으로 비슷한 결과를 가져다준다. 역사학자들보다 훨씬 빠른 속도로 말이다. 그러므로 빅데이터는 거대한 정보 속에 스며든 억압과 검열의 흔적, 편견의 효과 등을 파악하는 데 강력한 대안이 될 수 있다. 실제로 위키피디아에서는 각 항목을 서술하고 편집하는 데 개입될 수 있는 편견과 문제들을 파악하기 위해 통계적 방법론과 엔그램 데이터를 도입하려 시도하고 있다.
PART 5 유토피아, 디스토피아, 데이터토피아
1835년에 발명된 리볼버는 1918년에 영향력이 최고치에 달해 100만 단어당 6회의 빈도를 보였다. 최고치의 4분의 1 지점에 도달한 시점은 1859년으로, 24년이 걸렸다. 셀로판도 비슷하게 25년 정도가 걸렸고, 청바지는 103년이 걸렸다. 한편, 1978년에 발명된 소니의 워크맨은 영향력이 최고치의 4분의 1 지점에 도달하기까지 10년밖에 안 걸렸고, 애플의 아이팟도 비슷했다. 저자들은 새로운 기술이 하루가 다르게 우리의 일상을 바꿔놓는 오늘날, 집단학습의 속도에 어떤 변화가 있는지를 알아보기 위해 147가지 기술을 발명된 날짜순으로 정렬해 19세기 초기, 19세기 중엽, 세기 전환기 등 세 시기로 묶었다. 19세기 초기의 기술들은 영향력이 최고치의 4분의 1에 도달하기까지 65년이 걸렸다. 세기 전환기의 발명품들은 겨우 26년이 걸렸다. 집단학습 곡선은 10년마다 2.5년씩 줄어들며 갈수록 짧아지고 있다. 사회는 점점 더 빨리 배우고 있다.
■책 속 밑줄 긋기
"구글 엔그램 뷰어 프로젝트는 순식간에 빅데이터의 역사에서 가장 중요한 법률적 발화점이 됐다. 구글 북스 겪은 어려움은 빅데이터 연구가 앞으로 마주할 법률적 도전의 전조를 보여줬다."
"결과적으로 책에서 사용된 단어의 대다수, 즉 영어의 52%가 어휘의 암흑물질인 것으로 드러났다. 우주의 상당 부분을 구성하는 암흑물질처럼 어휘의 암흑물질은 언어의 상당 부분을 이루지만 표준적인 참고문헌에서는 포착되지 않은 채 존재한다."
"우리가 사용하는 단어들은 우리의 언어보다 훨씬 더 큰 이야기를 들려준다. 단어들은 우리의 생각, 우리의 풍습, 우리 사회 자체를 보여주는 창이다. 그러니 이제 우리 관찰도구의 초점을 커뮤니케이션 메커니즘에서 우리 사고의 실체로 돌려보자."
"더 빨리 유명해지는 만큼 더 빨리 잊힌다. 미래에는 모두가 15분 만에 전 세계적으로 유명해질 것이다."
"우리가 가진 것은 새로운 관찰도구의 디지털 렌즈를 통해 집단기억을 들여다보고 알아낸 발가벗은 상관관계들뿐이다. 그 밑에 흐르는 메커니즘을 밝혀내려면 시간이 더 걸릴 것이다. 이것은 최전선에 선 과학이다. 우리에겐 지도도 없고 추측과 막다른 골목들만 수두룩하지만, 이보다 나은 곳은 없다."
"사람들이 책을 불태우는 곳에서는 마침내 사람도 불태울 것이다. -하인리히 라이네"
"한 가지는 확실하다. 과학과 인문학이 다시 한 번 같은 목표를 향해 가고 있다는 것이다. 갈릴레오가 17세기에 우리 세계에 대한 이해를 바꿔놓았듯이, 21세기에 이 두 개의 렌즈는 서로 등을 맞댄 채 갈릴레오가 했던 것과 똑같은 일을 해낼 것이다."
■별점 ★★★★
■연관 책 추천
<거의 모든것의 미래> 데이비드 오렐 지음| 이한음 옮김 | 리더스북 펴냄