많은 데이터들이 돌아다니는 시기, 이들을 분석, 관리하는 빅데이터는 무엇이고 어떻게 활용되는지 알아보고자 한다.

[MHN 문화뉴스 임건탁 기자] 과거와 달리 아주 사소한 정보까지 디지털화 되어 기록되는 현대에는 정보의 양이 너무 많아졌다. 데이터 종류 또한 다양해졌고, 용량 자체도 엄청난 폭으로 늘었다. 이런 '빅데이터'는 기존의 도구나 기술로는 처리가 불가능하기 때문에, 이들을 추합하거나 가치를 창출할 기술이 고안되었다. 이 기술이 바로 '빅데이터 프로세싱'이다.

원래 빅데이터 프로세싱은 경제 분야에서 설문조사 결과 모음으로 정의됐지만, 그에 국한되지 않고 이를 계량화, 응용 모델들을 만들기 시작하며 대유행이 됐다. 

빅데이터의 특징은 규모, 다양성, 속도, 정확성, 가치 순으로 나열되고, 이를 3V, 4V, 5V로 표현한다. 이런 빅데이터는 관리, 분석하는 기술들이 필요하다. 

우선 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등이 이용된다. 여기서 통계학은 데이터에서 의미를 찾아내는 방법을 다루는 학문으로 빅데이터 기술의 기초다. 데이터 기술시대에서 통계학은 반드시 익혀야할 학문으로 모든 데이터 사이언스에 사용된다. 

관리 기술로는 Hadoop, Python, R 등을 예로 들 수 있다.  

이런 빅데이터는 다양한 분야에 활용된다. 우리가 일상적으로 자주 접하는 검색어, 추천물품 등을 만들어내는 검색, 추천 엔진의 데이터 추출에서 사용된다. 빅데이터 기술은 우리의 평소 관심사에 대한 데이터를 종합하고 분석해, 관심도를 측정한다. 이를 통해 우리가 현재 필요하고 궁금한 정보나 물건 등을 보여주며, 회사와 개인의 이익을 극대화하는 데에 이용된다.

또한 리스크 예측에도 많이 사용된다. 금융 투자나 인터넷 사기, 전염병 예측 등이 해당된다. 각종 거래 데이터, 평가도, 기업의 움직임 등에 대한 방대한 데이터를 종합하고, 예측 변수를 설정한다. 이를 통해 범주 내에서 일어날 수 있는 위험을 예측하고 미리 방지하여 개인이나 기업의 위험을 최소화할 수 있다. 

이런 빅데이터에 대한 우려섞인 목소리는 개인정보 침해 문제에 대한 걱정에서 나온다. 조지 오웰의 '빅 브라더'와 관련되어 말해지고 있으며, 빅브라더는 국가의 비합법적 감시체계를 말한다. 빅데이터를 이용해 사람들을 예상하고, 유도하는 기술이 발전하면서 국가에 의해 통제되는 기술이 밑거름이 될 수 있다고 보고 있다.

또한 페이스북이나 인스타 등 SNS의 개인 정보를 통한 사생활 침해와 유출이 빈번하게 일어나고 있고, 사회가 감당하기 힘들 정도의 데이터가 폭증하면서 그 만큼이 전문인력이 부족하다는 문제가 있다. 

빅데이터의 이런 문제점을 막기 위해선 우선 데이터를 전문적으로 관리할 인력을 확대해야 한다. 이를 위해선 데이터 분석, 관리 기술에 대한 교육과 참여 기회를 국가나 기업 차원으로 늘려야한다. 또한 데이터 독점화를 막기 위한 제도적 장치가 마련되어야 한다. 독점화는 곧 독재가 되기 마련이기 때문이다. 

데이터는 계속 늘어날 전망이고, 우리는 그에 맞추어 대비하고 준비할 필요가 있다. 

[사진 = pixbay 제공]

주요기사

 
저작권자 © 문화뉴스 무단전재 및 재배포 금지