빅데이터 이해하기

빅데이터란 무엇인가?

빅데이터(Big Data)란 기존 방식으로 저장/관리/분석하기 어려울 정도로 큰 규모의 자료를 의미한다. 데이터의 결합된 정보의 복잡성과 분석과정에서 요구되는 Speed도 기존의 의미와 구별된다(디지에코 보고서, 2015).

McKinsey(2011)에 따르면, 빅데이터는 DB의 규모에 초점을 맞춘 정의로 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터를 의미한다. 반면, IDC(2011)는 빅데이터를 DB가 아니라 업무수행에 초점을 맞춰 정의한다. 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 (데이터의) 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.

이처럼 빅데이터는 다양하게 정의된다. 결론적으로, 빅데이터는 단순한 데이터의 양의 증가 혹은 규모뿐 만 아니라 데이터를 분석 기법, 데이터 분석을 위한 소프트웨어 등의 기술 등의 모든 개념을 포괄한다.

빅데이터의 출현 배경

인터넷이 상용화 된 1990년대 이후, 지금까지 쌓여온 수많은 데이터와 더불어 2009년 스마트폰이 대중화 되면서 기하급수적으로 늘어난 데이터와 실시간으로 생성되는 수많은 데이터들이 정리되지 않고 있다.

그림 1 – Every 60 Seconds (HP Business Whitepaper, 2012)

스마트폰의 등장과 보급의 확대로 사람들이 언제 어디서든 인터넷을 이용할 수 있다. 또, SNS를 통해 실시간으로 자신의 의견을 직간〮접적으로 표현한다. 트위터나 페이스북 등에 어떤 제품과 서비스에 대한 글을 남긴다. 또, '배고프다', '졸리다' 등의 기본욕구(need)를 표출하기도 하며, 무엇인가를 사고 싶거나 여행을 가고 싶다는 등의 욕구(want)를 표현한다. [그림 1]과 같이 1분마다 엄청난 데이터들이 생성되고 있다.

그림 2 – 미국 업종별 데이터 현황(McKinsey Global Institute, 2011)

[그림 2]에서 보는 것과 같이 미국 업체들이 2009년 까지 쌓아온 데이터의 양의 총합을 합한다면 약 17,283 TB이다. 이는 약, 16.88 PB이다. 6년전 자료이지만, 그간 쌓아온 데이터의 양이 엄청나다.

그림 3 – 전 세계 데이터의 양(IDC, 2014)

IDC(2014)에 따르면, 2013년 전 세계의 데이터는 4.4 ZB에 이르고, 2020년에는 무려 44 ZB에 이를 것이라고 추정한다. 그만큼 산업에서 쌓여온 데이터 양이 엄청나고 실시간으로 생성되는 데이터의 양이 계속 증가하고 있다.

데이터의 양이 엄청나게 증가하고 있는 반면, 데이터를 처리하는 기술이 발전함에 따라 데이터를 저장하는 하드웨어의 가격이 낮아지고 있다.

그림 4 – 세계 정보 저장 수용량(Hilbert, M., & Lopez, P. 2011)

[그림 4]를 보면 1993연 3% 수준에 불과했던 디지털 데이터는 2002년 디지털 시대를 시작으로, 2007년 기준 전 세계의 정보 중 94%가 디지털로 저장되어 있다. 최근에는 클라우드를 통해 데이터를 저장하고 있는 추세이므로 디지털 상의 정보는 더욱 더 늘어날 것으로 전망 된다. 클라우드도 물리적으로는 하드웨어로 이루어진 데이터 센터를 기반으로 디지털 상에 존재하는 것이지만, 기존 저장장치의 한계를 뛰어넘어 공간의 한계를 극복하였다.

그림 5 – 저장 장치의 기가바이트 당 달러 가격(Gartner, 2013)

[그림 5]를 보면, 기가바이트 당 달러의 가격이 기하급수적으로 낮아지고 있고, 속도 면에서 하드디스크에 우위를 점하고 있는 SSD가 2017년에는 하드디스크와 비슷한 가격을 가지게 될 것이다. 또, 기존에 하드디스크를 능가하는 저장 용량을 가지게 된다.

결론적으로, 산업 내 방대한 데이터의 축적, 실시간으로 생성되는 데이터의 양의 지속적인 증가, 전 세계 데이터 양의 증가, 데이터 저장 장치의 발전, 데이터 처리 기술의 발전 등 복합적인 원인으로 인해 빅데이터가 출현한 것이다.

빅데이터의 기본 형태와 종류

"데이터란 숫자, 영상, 단어의 형태로 된 의미의 단위를 뜻한다. 이러한 의미를 가진 Datum (데이터의 단수)이 여러 개의 집합체를 이루어 Data 를 형성하게 되면 자료가 되며 이런 다양한 자료를 바탕으로 의미 있는 가치가 형성되면 정보(Information)라고 부르게 된다."(DLAB, 2014)

데이터를 기본 형태에 따라 구분하면 [표 1]과 같다. "차가 빠르다"는 질적 자료이고, "도로에 차가 50대 있다"는 양적 자료이다. 양적 자료도 이산형 자료와 연속형 자료로 나뉘는데, 쉽게 말하면 이산형 자료는 셀 수 있는 계산 자료이고, 연속형 자료는 셀 수 없는 측정 자료이다. 예를 들면, "도로에 차가 50대 있다"는 이산형 및 계산 자료이지만, 각 차의 주행 속도는 측정되는 자료인 것이다.

질적 자료

(Qualitative Data)

양적 자료

(Quantitative Data)

이산형 자료

(Discrete Data)

연속형 자료

(Continuous Data)

계산 자료

(Counted Data)

측정 자료

(Measured Data)

표 1 - 데이터의 기본 형태에 따른 구분

데이터는 또 정형 데이터와 비정형 데이터로 구분할 수 있다. 정형 데이터는 단순한 형태로 정리가 잘 되어있어 분석하기 쉬운 데이터 형태이다. 기존에 데이터 분석에 주로 사용되던 형태이다. 반면, 비정형 데이터는 복잡한 형태로 잘 정리가 안 되어 있어 분석하기 힘든 데이터 형태이다. 정형 데이터는 기존의 기업 또는 기관에서 주로 가지고 있는 고객 정보와 매출 등이 있다. 비정형 데이터는 소셜 데이터와 영상, 이미지 등의 다양하고 복잡한 형태의 데이터들을 통칭한다. 반정형 데이터는 데이터 속성인 메타데이터를 가지며 일반적으로 스토리지에 저장되는 데이터 파일이다.

정형 데이터

고정된 필드에 저장된 데이터

RDBMS

반정형 데이터

고정된 필드는 아니지만 스키마를 포함하는 데이터

XML, HTML

비정형 데이터

고정된 필드에 저장되어 있지 않은 데이터

텍스트, 이미지, 동영상

표 2 - 데이터의 형태에 따른 구분

스마트폰의 보급률이 증가됨에 따라 소셜 데이터, 영상, 이미지, 음성 등의 정리하기 어려운 비정형 데이터의 수도 많이 생겨나고 있다. 기존에 데이터 분석 기법은 정형 데이터를 분석하기엔 용이했지만, 정리가 안 되고 복잡한 비정형 데이터를 분석하기 어려워지면서, 빅데이터 분석 기법들과 관련 하드웨어들이 주목을 받고 있다.

빅데이터의 특징

빅데이터는 단순히 큰 데이터가 아니라 부피가 크고, 변화의 속도가 빠르며, 속성이 매우 다양한 데이터라는 세 가지 특징을 가진 큰 데이터를 빅데이터로 정의할 수 있다. (한국방송통신전파진흥원, 2013). 앞에서 계속 말해왔듯이, 빅데이터는 말 그대로 큰 데이터로 그 크기가 엄청나다. 또, 기존의 정형 데이터가 아닌 비정형 데이터가 계속 증가하고 있고, 영상, 이미지, 소셜 미디어 등 다양하게 존재하고 있다. 속도 측면에서는, 예전에는 어제의 데이터를 가지고 오늘 활용한다면, 빅데이터는 현재의 데이터를 처리하는 실시간 데이터를 말한다.

그림 6 – 빅데이터의 3가지 특징(3V),

(출처 : "빅데이터:산업 지각변동의 진원", 삼성경제연구소, 2012)

최근에는 기존의 3V 특징에 진실성(Veracity), 시각화(Visualization), 가치(Value) 등의 6V 개념으로 확대되고 있다. 앞서 말한 빅데이터의 3V 특징이 빅데이터의 본질이고, 추가된 3V는 그 빅데이터 분석의 개념이다. 수 많은 데이터 중에서 의사결정에 활용할 수 있는 진실된 데이터를 찾고 이를 시각화하여 비즈니스에 실현될 가치를 전달하는 것이 빅데이터 분석의 핵심이기 때문이다. 즉, 확장된 개념의 빅데이터는 기존의 빅데이터의 특징과 분석을 포함하는 개념이다. 그래서 최근에는 빅데이터 분석을 결과를 쉽게 보여주기 위해 인포그래픽과 같은 다양한 시각화 기법을 활용하는 사례가 늘고 있다. 이미 빅데이터 디자이너라는 직군이 생겨날 정도이다.

빅데이터를 통해 기회를 잡아라

기업들은 빅데이터 속에서 Business Intelligence(BI)를 도출함으로써 새로운 기회를 가질 수 있다. 그래서 데이터 관련 기업들은 각종 데이터 분석 소프트웨어와 솔루션, 데이터 센터, 클라우드 서비스 등을 기업들에게 제공하고 이익을 취하기 위해 빅데이터를 키워드 마케팅으로 활용하고 있다. 다르게 생각하면, 기존에도 행해오던 데이터 분석을 마치 새로 시작하는 것처럼 들리기도 한다. 빅데이터가 데이터 관련 기업들의 마케팅 용어이든 아니든, 넘쳐나는 데이터 속에서 유용한 정보를 찾게 해주는 빅데이터가 기업들에게 다가오는 파괴적인 미래를 대비할 혜안을 가져다 줄 것임에는 틀림없다. 또한, 개발도상국들과 제 3세계에 인터넷의 보급률이 높아지고 스마트폰이 대중화 된다면 데이터의 증가율은 더욱 높아질 것이고, 기회를 찾는 수많은 비즈니스맨들에게는 빅데이터를 분석을 활용하여 데이터의 홍수 속에서 진주를 발견할 수 있을 것이다.

참고문헌

DLAB(2014), 초보자를 위한 빅데이터 이해하기.

디지에코 보고서 Issue&Trend(2015), Big Data의 이해와 활용.

삼성경제연구소(2012), 빅데이터:산업 지각변동의 진원.

한국방송통신전파진흥원(2013), 빅데이터 활용단계에 따른 요소기술별 추진동향과 시사점.

Gartner(2013), Market Trends: Evolving HDD and SSD Storage Landscapes.

HP Business Whitepaper(2012), Harness the power of Big Data,

Hilbert, M., & Lopez, P.(2011), The World's Technological Capacity to Store, Commuicate, and Compute Information. Science, 332(6025), 60-65.

IDC(2011), Extracting Value from Chaos.

McKinsey Global Institute(2011), Big data: The next frontier for innovation, competition, and productivity.



+ Recent posts