쉽게 이해하는 빅데이터의 개요

데이터를 정형화의 정도에 따라 정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured)으로 분류할 수 있다.

  1. 정형 데이터
    정형 데이터는 일정한 규칙에 따라 체계적으로 정리한 데이터입니다. 고정된 필드에 저장된 데이터이며 관계형 데이터베이스, 스프레드시트에 활용됩니다. 정형화된 데이터는 그 자체만으로도 의미 해석이 가능하며, 바로 활용할 수 있습니다.
  2.  반정형 데이터
    반정형 데이터는 한글이나 MS 워드 등으로 작성한 데이터입니다. 고정된 필드에 저장되어 있지는 않지만 메타데이터나 스키마 등을 포함하는 데이터입니다. 페이스북, 트위터, 카카오톡 등의 소셜 네트워크 서비스 사용자가 생성하는 데이터들이 여기에 해당합니다.
  3. 비정형 데이터
    고정된 필드에 저장되어 있지 않은 데이터를 말합니다. 비정형 데이터에는 텍스트 문서, 이미지, 동영상, 음성 데이터가 포함됩니다. 비정형 데이터의 증가 속도는 누구도 예측할 수 없을 정도입니다. 비교적 선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이기 때문입니다. 스마트기기로 생성하는 소셜 데이터 외에도 이메일이나 동영상 등의 비정형 데이터가 향후 전체 데이터의 90%에 달할 것으로 전망됩니다.