본문 바로가기

Digital & Insight

빅데이터의 역설, Garbage In, Garbage Out

반응형

2016년 미국 대통령 선거는 공화당 후보였던 도널드 트럼프(Donald Trump)의 승리로 막을 내렸다. 트럼프는 막말 파문과 스캔들에 휘말리면서 선거 운동 기간 내내 자질 논란에 시달렸다. 급기야 공화당 내부에서도 그를 지지하지 않겠다는 주장이 거세게 일었다. 그럼에도 불구하고 승자는 끝까지 선거를 포기하지 않은 트럼프였다.

트럼프의 극적인 승리는 미국 대선 역사상 가장 큰 이변 중 하나다. 선거 막판까지 트럼프의 승리를 점친 사람들은 거의 없었다. 퍼스트레이디와 국무장관 등 풍부한 정치 경력과 연륜을 갖춘 힐러리 클린턴(Hillary Clinton)의 낙승을 확신하였던 미국 사회는 물론 전세계 각국 정부와 기업, 금융 시장 등은 트럼프의 당선에 크게 당황했다.

특히 대다수 언론 및 선거 조사 기관들이 큰 충격을 받았다. 이들은 수많은 유권자 설문 조사 및 인터넷과 소셜 네트워크 등 각종 여론 동향 조사를 통하여 클린턴이 승리할 것이라고 확신하였다. 뉴욕타임스는 선거일 전날 클린턴의 당선 확률을 85%로 발표하였고, CNN도 91%의 확률로 클린턴이 이길 것으로 추정하였다. 지난 대선 결과를 맞혀 스타덤에 오른 데이터 분석 전문가 네이트 실버(Nate Silver)의 선거 예측 웹사이트 ‘파이브서티에이트(Five Thirty Eight)’도 클린턴의 승리 확률이 71%라고 주장하였다. 그러나 트럼프의 승리로 이들 기관의 명성도 타격을 입게 되었다.

다수 기관들이 하나 같이 예측에 실패하자 여론 조사의 신뢰성 문제가 다시 수면 위로 부상하였다. 과거에도 잘못된 선거 결과 예상 발표로 비판에 직면한 사례는 비일비재하다. 하지만 최근 선거에서는 정확한 예측을 위하여 많은 인력의 투입은 물론 첨단 정보 기술(IT)이 대거 도입되고 있다. 또한 트럼프가 구설수에 휩싸이면서 고전하는 모습이 역력하자 일부 언론은 선거일 한참 이전부터 클린턴의 승리를 강하게 확신하였다. 결국 뉴욕타임스와 워싱턴포스트 등은 선거가 끝난 후 미국 사회의 목소리를 충실히 인지하지 못했다는 반성문을 발표했다.

이를 계기로 일각에서는 빅데이터 기술에 대한 의문도 제기되었다. 트럼프와 클린턴 등 두 대선 후보는 물론 많은 기관들 역시 선거 판세 전망을 위하여 빅데이터 기술에 천문학적 비용을 투자한 것으로 알려져 있다. 이런 차원에서 이번 미국 대선은 빅데이터 기술의 가치와 한계에 대한 활발한 논의를 촉발하는 계기가 되었다.

최근 빅데이터 기술이 부상하게 된 주요 요인은 PC와 인터넷, 모바일을 중심으로 데이터가 폭발적으로 증가하였기 때문이다. 특히 포털 사이트 검색과 댓글, 소셜 네트워크, 개인 제작 멀티미디어(UCC) 등 이전에 활용되지 않았던 데이터를 중심으로 빅데이터 기술이 활발하게 적용되고 있다. 빅데이터의 잠재 가치에 새롭게 주목한 많은 기관들은 자체적인 데이터 모니터링 및 분석 기술을 강화하여 시시각각 변하는 정보 및 트렌드를 습득하고 있다.

그러나 한편으로는 풍부한 데이터 수집 자체만이 반드시 성공적인 결론 도출을 보장하지 않는다는 반론도 있다. 데이터란 본질적으로 출처 및 전달 경로, 수용 목적에 따라 서로 다른 의미와 가치를 지니고 있다. 또한 대부분의 데이터는 객관적 사실과 정보보다는 주관적 성향과 판단을 담고 있는 경우가 많다. 그러므로 이와 같은 데이터를 통합적으로 분석하더라도 의미 있는 결과를 얻기란 쉽지 않다는 것이다. 또한 아무리 공정성을 추구한다 하더라도 데이터 획득 및 해석의 과정에서 주관적 판단을 완전히 회피하기도 어렵다.

트럼프의 당선을 오판한 가장 큰 원인도 바로 여론 흐름을 정확히 읽을 수 있는 데이터를 충분히 분석하지 못한 탓이다. 대부분 언론과 선거 조사 기관들은 접근하기 쉬운 유권자를 대상으로 선호도를 조사하였기 때문에, 일부 편향된 시각이 전체 여론을 대변하는 것처럼 오인되었다. 게다가 이번 선거에서는 유독 막판까지 투표할 후보자를 결정하지 못한 사람들이 많았기 때문에 제한적인 선호도 데이터 해석만으로는 여론 동향을 파악하기 어려웠다는 지적도 있다.

설문 조사에 응한 사람들의 상당수가 자신들의 속마음을 제대로 표현하지 않았다는 주장도 있다. 트럼프를 지지하지만 부정적 시선을 의식해 여론 조사에 솔직하게 응답하지 않은 이들이 예상보다 훨씬 많았다. 샤이 트럼프(Shy Trump)라 불리는 이런 지지자들은 선거 막판까지 명확한 의사를 드러내지 않았기 때문에, 언론들은 클린턴을 지지하는 사람들이 더욱 높다고 판단하였다.

유권자 응답에 의존하는 기존 여론 조사와 다른 방법을 적용하여 트럼프의 승리를 미리 알았다는 주장도 있다. 인도의 인공지능 기술 스타트업 제닉 AI(Genic AI)가 만든 선거 예측 프로그램 모그 IA(Mog IA)는 페이스북, 트위터 등 소셜 네트워크 서비스에서 2천만 개 데이터를 추출하고 이를 자체 알고리즘으로 분석하여 트럼프의 승리를 맞추었다고 주장한다. 또한 구글 검색을 기반으로 사회 트렌드를 보여주는 구글 트렌드(Google Trends) 역시 지난 1년 간 클린턴보다 트럼프를 검색한 횟수가 더욱 많았기 때문에 트럼프가 대통령이 될 것으로 추정할 수 있었다고 설명한다.

 

트럼프와 클린턴의 검색량 비교 (참조: 구글)

풍부한 데이터 획득은 중요하다. 그러나 단지 축적하는 데이터의 양이 가치 창출의 필수 요건은 아니다. 또한 데이터 수집 범위의 확대가 의사 결정이나 실제 결과 예측 수준과 그대로 비례하지도 않는다. 유수의 글로벌 금융 기관들은 첨단 IT 시스템과 금융 데이터 수집에 매년 천문학적인 금액을 투자하였지만 블랙 먼데이와 서브프라임 모기지 등 주기적으로 반복되는 금융 위기를 감지하지 못했다.

불필요한 데이터를 입력하면 출력 결과 역시 불필요하다는 GIGO(Garbage In, Garbage Out)이라는 격언이 있다. 데이터 분석을 통한 성과 도출의 수준은 적절한 데이터의 수집과 검증에 의해 좌우된다는 뜻이다. 데이터 축적에 앞서 필요한 데이터의 특징 및 범위에 대한 충분한 검토와 고민이 부족하다면 방대한 양의 데이터와 이를 처리할 수 있는 빅데이터 기술의 가치도 반감될 수 밖에 없을 것이다.

반응형