Tuesday, December 27, 2016

빅데이터에 관한 여덟가지, 아니 아홉가지 문제들

어느덧 ‘빅 데이터 (Big Data)’라는 말은 모든 곳에 사용 되기 시작했다. 많은 사람들이 데이터를 수집, 분석하고, 이익을 창출한다. 그리고 이러한 빅 데이터의 영향력을 찬양하거나 혹은 두려워하는 듯 보인다. 독감발생을 예측할 수 있는 수많은 구글 검색이나, 테러의 징후를 포착하는 엄청난 수의 통화기록들, 또는 비행기표 최저가를 위한 항공정보들을 분석하는 것 등등, 굳이 언급하지 않더라도 빅 데이터의 유행은 이미 널리 알려져있다. 디지털 시대에 쏟아진 엄청난 양의 데이터가 최신 컴퓨터 기술과 결합하면서, 빅 데이터 분석은 수많은 사례들을 해독하여 범죄, 공공보건, 문법의 발전, 연애의 위험성 등을 포함한 모든 문제을 실제적으로 해결해낸다.

빅 데이터의 옹호자들은 다음과 같이 주장한다. 언론인 패트릭 터커(Patrick Tucker)는최신 출간된 빅데이터 선언문격인 책, <The Naked Future>에서 “향후 20년 안에, 우리 인류는 미래의 많은 부분들, 오랜동안 인류의 추론 영역 너머에 존재한다고 치부한 사건들까지도 역사상 가장 높은 정확성으로 예측할 수 있을 것 입니다”라고 언급한다. 기존의 단순한 통계적 연관들보다 더 뛰어난 방식으로 말이다.

빅 데이터는 알려진대로 정말 대단한 것인가? 빅데이터가 특정 분야들에 이미 중대한 영향을 미친 휼륭한 방식이라는 점에 대해선 이견이 없다. 구글 검색엔진에서부터 IBM까지 지난 20년 동안 있었던 거의 모든 성공적인 인공지능 컴퓨터 프로그램들이 대부분 성공적이었다. 가령, <Jeopardy!>의 우승자Watson은 거대한 양의 데이터를 분석해왔다. 그럼에도 불구하고, 빅데이터의 최근 인기와 늘어난 사용을 고려해볼때, 우리는 빅데이터가 무엇을 할 수 있고, 할 수 없는지에 대해 냉정히 판단해볼 필요가 있다.

첫번째로 주목해야 할 것은, 빅데이터가 상관관계, 특히 작은 데이터 세트들에서 감지하기 힘든 미묘한 상관관계들을 찾는데 매우 뛰어나다 할 지라도,이 상관관계들이 어떤 의미가 있는지를 해석하지 못한다는 점이다. 가령, 빅데이터 분석이 2006년 부터 2011년까지 미국 범죄율이 인터넷 익스플로어의 시장점유율과 상당히 연관되었다고 밝혀냈을지도 모른다 (두가지 모두 급격히 하락했다). 그러나 이는 두가지의 인관관계를 추측하기는 어렵다. 비슷한 예로, 1998년부터 2007년까지, 자폐증 진단 횟수와 유기농 식품의 판매가 매우 뚜렷한 연관이 있었지만, 이러한 상관관계가 ‘유기농 식품의 섭취가 자폐를 유발했다’고 의미하는 것은 아니다.

둘째, 빅 데이터는 과학적 탐구에 부합하여 잘 사용될 수 있지만, 전체적인 대안으로서는 성공할 수는 없다. 예를들어, 분자생물학자들이 DNA염기서열에서 3차원 단백질 구조를 추론하려고 하고, 이를 연구하는 과학자들이 다수의 도구들 중 하나로써 빅 데이터를 이용해왔다. 그러나 통계적 분석이 얼마나 대단한지에 상관없이, 어느 과학자도 데이터 분석 자체만으로 이 문제를 해결한다고 생각하지 않는다. 당신은 반드시 물리학과 생화학적인 이해에 의존하는 분석을 시작해야 할 것이다.

셋째, 빅 데이터를 기반으로 하는 많은 도구들이 쉽게 조작이 가능할 것이다.가령, 학생들의 에세이 채점을 위한 빅 데이터 프로그램은 수채점과 마찬가지로 문장의 길이와 단어의 복잡성과 같은 기준들에 종종 의존한다. 그러나 어떤 학생들이 이 프로그램의 작동원리를 파악한다면, 그들은 조리있는 글쓰기를 배우려하기 보단 긴 작문을 할것이고, 불분명한 단어들을 사용하기 시작할 것이다. 심지어 빅 데이터의 대표적인 성공사례인 구글의 뛰어난 검색엔진 조차도 인위적인 검색결과를 시도하는 교활한 기술, 구글폭격(Google bombing)과 스팸덱싱(spamdexing)에는 속수무책으로 당한다.

넷째, 누군가가 빅 데이터 분석의 결과들을 의도한대로 조작하지 않더라도, 빅 데이터의 결과들은 종종 재현되지 않는다(less robust). 구글 독감동향분석(Google Flue Trends)는 빅 데이터의 분석의 대표적인 예시이다. 2009년에 구글은 독감 관련 검색어를 분석하면서 질병통제 예방센터보다 더 정확하고 빠르게 독감의 전염을 파악해왔다. 그러나 몇년이 지나고 구글 독감동향분석은 불완전해지기 시작했고, 지난 2년동안 잘못된 예측을 하는 경우가 더 많았다. 최근 Science에 게재된 한 연구(링크)에서 밝혀내길, 구글 독감동향분석의 재현 실패들 중 대부분은 한번 수집한 데이터를 다음번에 수집된 데이터에 적용하지 않는 등 지속적으로 검색엔진을 변경해온것에 기인한다. 통계학자 Kaiser Fung이 지적하듯, 웹사이트 접속횟수에 의존하는 빅데이터의 수집들은 매번 다른 방법과 목적으로 수집된 데이터들과 차후에 통합된다. 이러한 이유 때문에 구글 독감동향분석은 초기 결과를 재현하는데 종종 실패하곤 한다. 이와 같은 데이터셋으로 부터 얻어낸 결론들은 위험 할 수 있다.

다섯번째, 대부분의 빅 데이터가 웹으로부터 온다는 사실에 기인하는, 소위 반향효과 일 것이다. 빅 데이터를 위한 정보의 출처가 빅 데이터의 최종 산물이 된다는 것을 고려하면, 빅 데이터 분석 자체가 악순환이 될 가능성이 있다. 가령, 구글 번역 (Google Translate)은 다른 언어들에서 나온 많은 병렬텍스트들(두개의 다른 언어들로 기록된 같은 위키피디아 내용)에 의존하여, 이 언어들간의 번역 패턴을 구분한다. 이것은 완벽하게도 합리적인 전략으로 보이지만, 몇몇 덜 공통적인 언어들은 구글번역을 이용하여 많은 수의 위키피디아 문건들을 작성했을지도 모른다. 이런 경우들은 구글 번역의 초기 오류들이 위키피디아에 문제를 일으키고, 이 문제는 다시 구글 번역에 영향을 미쳐서 궁극적으로 오류를 증가시킨다.

여섯번째 걱정은 너무 많은 상관관계들의 위험성이다. 만약 당신이 100번 정도 두가지 변수들간의 상관관계들을 찾으려한다면, 당신은 우연히도 다섯 번의 위양(false-positive)의 상관관계들을 발견한다. 이는 심지어 변수들간의 실제적이고 유의미한 관련성이 없어도 그러하다. 만약 주의 깊은 감시가 없다면, 빅 데이터 분석은 이런 오류들을 엄청나게 많이 양산해낼 것이다.

일곱번째, 빅 데이터는 가망없이 애매한 질문들에 대하여 과학적으로 그럴듯한 해답들을 줄 가능성이 있다. 예를들어, 지난 몇달동안, 위키피디아의 데이터들을 근거로, 인물들의 “역사적 중요성”이나 “문화적 기여도”에 대한 등급을 매기려는 두차례시도가 있었다. 하나는 컴퓨터 과학자 스티븐 스키에나(Steven Skiena)와 엔지니어 찰스 워드(Charles Ward)가 작성한 <누가 더 위대한가? 역사적 인물들의 등급>라는 책이었다. 다른 하나는 메사추세츠 공대 미디어랩의 프로젝트인 판테온(Pantheon)이었다. 예수, 링컨 그리고 세익스피어가 중요한 인물들이었다라는 등, 두가지 시도들 모두 정확히 예측을 했지만, 두가지 모두 터무니 없는 오류들을 만들었다. <누가 더 위대한가>는 프란시스 스콧 키(Francis Scott Key)가 인류 역사에서 19번째로 위대한 인물이라고 밝혔고, 판테온은 노스트라다무스(Nostradamus)가 20번째로 중요한 작가라고 말했는데, 이는 제인 오스틴(Jane Austen)(78위)과 조지 엘리엇(George Eliot)(380위)보다 앞선 결과이다. 더 어처구니 없게도, 두가지 프로젝트 모두 본질적으로 모호하거나 심지어 무의미한 평가들에 관해 잘못된 과학적 정확도를 제시했다. 빅 데이터는 모든 것을 하나의 숫자로 축약할 수 있지만, 컨텍스트의 해석에는 부정확 할수 있다.

마지막으로, 빅 데이터는 지극히 공통적인 것들을 분석하는데에는 최고지만, 덜 공통적인 것들을 분석할 때에는 종종 충분하지 못하다. 예를들어, 검색엔진이나 번역프로그램과 같이 텍스트형식의 빅 데이터를 다루는 프로그램들은 “trigram (세가지 단어들이 일렬로 배치되는 경우 — 가령, “in a row”)”이라 부르는 것에 지나치게 의존한다. 신뢰할 만한 통계적 정보는 공통적인 trigram들에 관해 수집되는 것이고, 엄밀하게 이는 trigram들이 자주 등장하기 때문이다. 그러나 신조어 탄생으로 인해, 데이터의 실제 규모는 사람들이 사용할 만한 모든 trigram들을 포함하기 위해 절대 충분하지 않을 것이다. 거의 무작위로 예를 선택하기 위해, 최근 뉴욕 타임즈에 배우 랍 로우(Rob Lowe)가 작성한 책 리뷰에서는 수 페타바이트(petabyte)들의 구글 텍스트 전문에 등장하지 않았던 “dumbed-down escapist fare”과 같은 9가지 trigrams을 포함했다. 빅 데이터가 갖는 새로운 문제점들을 입증하기 위해서, 구글번역으로 “dumbed-down escapist fare”이란 trigram을 독일어로 번역하고 다시 그 결과를 영어로 번역하였다. 생뚱맞게도 결과는 “scaled-flight fare”이엇다. 이것은 로우가 의도한 것이었지만, 번역을 위한 빅 데이터 분석에서 기대한 것과는 판이하게 다른 결과였다.

잠깐, 우리는 또다른 문제 하나를 망각했다. 빅 데이터의 옹호자들이 빅 데이터를 혁명적인 진보라고 추앙한다. 그러나 사람들이 빅데이터의 성공들이라 아낌없이 말하는 사례-쓸모는 있었지만 구글 독감동향과 같은-들 조차도, 더 큰 구조에서 보면 하찮은 것들이다. 빅데이터의 성공사례들은 항생제, 자동차 혹은 비행기 등과 같은 19세기, 20세기의 위대한 발견들보다 더 중요하진 않다. 빅데이터는 늘 그러하듯 우리와 함께 있다. 그러나 조금 더 현실적이어지자. 빅데이터는 데이터를 분석하는 이들에게 중요한 자원이지, 모든 것에 대한 왕도는 아니다.

No comments:

Post a Comment