최근 트위터 친구 한 분의 소개로 알게 된 논문 한 편을 흥미롭게 읽었다. 방대한 데이터를 수집·처리하고 분석함으로써, 거기에서 예전엔 몰랐던 새로운 통찰과 가치를 발굴해낸다는 ‘빅 데이터’의 시대에, 이를 비판적으로 조명하는 논문이었다. 미국 마이크로소프트연구소 연구자들이 지난 3월 국제학술지 <정보·소통·사회>에 낸 논문(‘빅 데이터에 대한 비판적 질문’, goo.gl/acgQu)은 빅 데이터의 유행에 휩쓸려 정작 놓치기 쉬운 가치는 없는지 따져보기를 하는 셈이다.
논문에서 빅 데이터라는 용어의 엄밀성은 논란거리다. 애초엔 빅 데이터가 슈퍼컴퓨터에서나 처리할 수 있을 정도로 방대한 데이터라는 뜻으로 쓰였으나 컴퓨터 성능이 날로 발전해 예전의 빅 데이터는 이제는 빅 데이터가 아니게 됐는데도, 이 말은 데이터, 계산, 수치를 강조할 때 흔히 널리 쓰인다. 이런 점에서 빅 데이터는 시대의 현상이다.
이들이 지적하는 몇 가지 과신과 오해는 이렇다. 빅 데이터는 객관성을 제공한다지만 데이터를 걸러내고 계산 알고리즘을 짜야 하는 것은 여전히 주관적인 인간임을 잊지 말라고 한다. 데이터는 클수록 더 좋다는 믿음도 경계하라고 한다. 아무리 방대한 데이터라도 데이터의 맥락이 고려되지 않는다면 엉뚱한 해석에 이를 수 있다. 특히 표본의 대표성을 확인하기 힘든 트위터 데이터를 분석한 결론을 사용할 땐 더욱 주의해야 한다. 또한 데이터 프라이버시의 문제는 계속되는 논란임을 환기시킨다.
데이터 대량 수집과 빠르고 효율적인 처리 기법이 중시되며 데이터의 해석과 예측에 관심이 쏠리는 시대엔 세상도 데이터 중심으로 나뉜다고 한다. 데이터를 생산하는 자, 수집 수단을 소유한 자, 전문으로 분석하는 자가 구분되고 ‘데이터 부자’인 사회미디어기업의 역할은 커진다. 빅 데이터의 의미와 한계를 헤아리며 적절하게 사용하는 방법을 익힐 때에야 빅 데이터는 유익한 통찰과 가치를 가져다줄 것이다.
오철우 기자 cheolwoo@hani.co.kr
<한겨레 인기기사>
■ 알뜰폰 2년, 안 뜨는 이유 있다
■ 진선미·김현 의원 “국정원 국정조사 무산될까봐 심장이 벌렁벌렁한다”
■ 이 정부의 ‘귀태’? 그건 국정원입니다
■ 미 아이비리그 여대생들의 ‘신 성풍속도’
■ [화보] ‘그때 그시절’ 경복궁에서 있었던 별의별 일들…
■ 알뜰폰 2년, 안 뜨는 이유 있다
■ 진선미·김현 의원 “국정원 국정조사 무산될까봐 심장이 벌렁벌렁한다”
■ 이 정부의 ‘귀태’? 그건 국정원입니다
■ 미 아이비리그 여대생들의 ‘신 성풍속도’
■ [화보] ‘그때 그시절’ 경복궁에서 있었던 별의별 일들…
항상 시민과 함께하겠습니다. 한겨레 구독신청 하기