본문 바로가기

IT기반지식/디지털신기술

빅데이터 및 빅데이터 분석이란(BIG DATA)?


가트너는 2012년도 주요 10대 전략 ㅣ술중 하나도 분석 기술과 빅데이터를 6위와 7위로 선정했다.
빅데이터란 무엇인지 간략하게 개념 정리를 하자면 다음과 같다.

1. 빅데이터를 판별하는 중요 요소
   - 데이터의 크기 : 정보의 양이 얼마나 큰지, 저장된 정보의 양이 어느정도인지 알려주는 크기
   - 유입되는 속도 : 실시간으로 들어오느냐 스트림을 통해 들어오느냐를 알려주는 속도
   - 유입되는 데이터의 형태 : 정형화된 데이터인지 비정형화된 데이터인지(음성, 위치정보, TEXT 등등)

   일반적으로 스토리지 업체에서는 크기로 빅데이터를 정의하곤 하지만 부족하다...
   크기, 속도, 형태를 적정하게 갖고 있어야 빅데이터로 취급

2. 빅데이터 분석
  - 근간 데이터(분석하기 전에 기본이 되는 바탕자료)를 분석하여 나온 결과 데이터를 다시 상관분석을 통해 데이터간 연결 고리를 찾아내는데 집중(어려운 점은 데이터 형태가 다양한 형태로 제공되기 때문에 상관관계 분석이 어려움이 있다)
  - 분석한 데이터가 원래 분석한 데이터보다 커질 수 있고 분석중에도 데이터양이 기하 급수적으로 증가하기 때문에 기존 장비 및 알고리즘으로 분석하는데 한계가 있기 때문에 빅데이터 분석이라는 용어가 나왔음.

3. Needs 
  - 기술과 장비가 발전함에 따라 빅데이터로 부터 유효한 정보를 획득하고 싶어한다
  - 분석을 통하여 새로운 패턴을 이해 할 수 있다.

4. 문제점
  - 빅데이터로부터 반드시 의미있는 데이터가 분석되는 것은 아니다.
  - 기술적으로 접근하려고 해서는 안된다(기존 기술 : 하둡, 맵 리듀싱 등)
  - 분석이 반복되며 오래 걸린다.

5. 올바른 빅데이터 분석 접근 방법
  - 데이터에 대한 가치를 정한 다음 분석을 하는게 순리(분석하고 가치를 찾는 것이 아님)
  - 반드시 분석 결과에 대한 검증 작업이 뒤따라야 의미 있는 분석 데이터를 보증할 수 있다.
  - 기획자와 시스템을 알고 있는 개발자가 협업을 하며 커뮤니케이션이 중요해짐
  - 데이터를 바탕으로 어떤 분석이 가능할지 기획자가 판단하고 개발자가 이에 맞는 분석 환경을 만들어 주는 것이 중요


[참고:블로터 닷넷 컬럼, http://www.bloter.net/wp-content/bloter_html/2011/12/87471.html]