메뉴 바로가기 본문 바로가기

TOP

스터디룸

Enjoy our interesting and informative contents.

빅데이터(Big Data)란 무엇인가? 첫번째 이야기

  • 3630
  • 2015-05-26

부처님의 은혜라 하여 황금 연휴였는데요.

 

행복한 휴일 보내셨나요?

 

 

 

 

 

 

 

처음에는 우왕~ 3일이나 돼! 라며 엄청 긴것 같이 느껴졌는데요

 

막상 지내고보니 벌써 3일이 후딱~ 지나가있더라구요ㅠ

 

완전 아쉬움 가득...흐규흐규

 

 

 

 

 

얼마 전 김제동의 톡투유-걱정 말아요 그대의 방청 이야기를 포스팅 했었는데요.

 

프로그램을 보시면 아시겠지만 빅데이터에 대한 이야기가 상당히 많이 나와요.

 

 

 

 

 

빅데이터 전문가인 송길영님이 나와서 

 

그동안 수집한 빅데이터를 근거로 다양한 이야기를 주시더라구용.

 

그래서 말로만 듣던 빅데이터가 무엇인가? 

 

궁금한 꼬대리~ 바로 빅데이터에 대해 조사해 보았습니다~ㅋㅋ

 



빅데이터란!

 

말 그대로 엄청난 데이터입니다. 

 

하지만 이는 특히 디지털 환경에서 생성되는 데이터를 말하는데요.

 

 

 

 

 

생성 주기가 상당히 짧고, 형태도 수치 뿐만 아니라 문자나 영상 데이터도 가지고 있는거라는게 특징입니다.

 

말로만 들어선 무엇인지 잘 모르겠다고요?!

 

 

 

 

 

그래서 오늘은 빅데이터에 대해 첫번째로 '이론적인' 이야기부터 해보려 합니다. 

 

 

 

 Big Data의 개념

 

- 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 데이터 셋(set)

 

- 스마트 단말 및 소셜미디어 등의 다양한 정보채널 등장으로 생산, 유통되는 정보의 양이 기하급수적으로 증가

 

 

 

빅데이터는 정형화 된 정도에 따라 분류를 나눌 수 있습니다. 

 

 

 

정형화 정도에 따른 Big Data의 분류

 

- 정형 : 고정된 필드에 저장된 데이터(예:관계형데이터베이스)

 

- 반정형 : 고정된 필드는 아니지만 스키마를 포함하는 데이터(XML, HTML 등)

 

- 비정형 : 고정된 필드에 저장되어 있지 않은 데이터(텍스트, 이미지, 동영상 등)

 

 

 

그렇다면 기존 데이터 처리와 빅데이터 처리의 차이점은 무엇일까요? 

 

① 빠른 의사결정의 요구가 상대적으로 적음

 

② 처리(Processing) 복잡도가 높다

 

③ 처리할 데이터량이 방대함

 

④ 비정형 데이터의 비중이 높음

 

⑤ 처리/분석의 유연성이 높음

 

⑥ 동시 처리량이 적음 

 

⑦ 실시간 처리가 보장되어야 하는 데이터 분석에는 부적합

 

 

 

 

 

 

 

모든 것이 디지털과 온라인 이런것으로 처리되는 사회가 되면서 빅데이터의 양은 어마어마해졌는데요.

 

때문에 관련하여 기존과는 분명한 차이를 보이고 있습니다.

 

 

 

 

 

특히 요즘에는 빅데이터 뿐만 아니라 이를 활용하는

 

 데이터 마이닝(Data Mining)이 성장 산업으로 

 

엄청나게 주목받고 있습니다.

 

 

 

 

* 데이터 마이닝 : 활용하지 않은 데이터를 분석해서 새로운 가치를 만드는 작업

 

 

 

 

그렇다면! 빅데이터 분석은 어떻게 할까요?

 

 

 

① Text Mining

 

② Opinion Mining(평판분석) : 소셜미디어의 비정형 데이터의 선호도를 판별

 

③ Social Network Analytics(소셜분석)

 

④ Cluster Analysis

 

 

 

 

텍스트 마이닝(Text Mining)이란 비정형 텍스트 데이터에서 새롭고 유용한 정보를 찾아내는 과정 또는 기술을 말합니다.

 

또한 군집분석(Cluster Analysis)이란 개인이나 다른 개체 중에서 유사한 속성을 가진 대상만을 모아서 그것을 집단으로 그룹화.

 

이후 그 집단들의 성격을 파악해 데이터 전체를 이해하도록 하는것을 말합니다.

 

 

 

 

 

관련하여 빅데이터 분석을 위한 인프라 기술이 등장합니다.

 

 

 

 

 

오픈소스 Hadoop

 

- 오픈소스 분산 처리기술 프로젝트로 정형/비정형의 Big Data 분석에 가장 선호되는 솔루션

 

- HDFS - HBase - MapReduce 구조

 

 

 

 

 

 R

 

- 통계 계산 및 시각화를 위한 언어 및 개발 환경 제공

 

 

 

 

 

NoSQL(Not-Only SQL 또는 No SQL)

 

- 수평적 확장에 강점을 가진 비관계형 데이터베이스

 

 

 

이렇게 생성 된 빅데이터 산업은 과거랑 다르게 모든 종류의 데이터를 만들고, 

 

기록하고, 잘 활용할 수 있도록 윤활유 같은 역할을 하게 됩니다.

 

 

 

 

 

이미 한번 만들어진 데이터는 어떠한 용도로든 사용되며, 빅데이터를 활용하는 기술은 점점 발달하고 있다 하죠.

 

 

  

 

특히 스마트폰과 같은 모바일 기기를 사용하게 되면서 개인 활동 내용이 24시간 풀로 가동되어 기록 되고 있습니다.

 

이는 개인의 삶 자체가 점점 더 스마트폰에 의존하지 않고는 진행 불가능 하다는것으로 해석할 수도 있을거 같은데요.

 

 

 

 

이렇게 생성된 엄청난 규모의 데이터는 빅데이터 산업의 출현과 발달로 인해 새로운 효용과 가치를 얻고 있습니다. 

 

그리고 안타까운점이 있다면 컴퓨터나 휴대폰 같은 기기 사용이 점차적으로 늘어나고, 또 삶의 일부가 되어가면서

 

이제는 개인의 프라이버시 영역이 점차 사라져 버리고 있습니다.

 

 

 

 

대략 빅데이터에 대해서 느낌이 오시나요?

 

이제 관련하여 빅데이터가 무엇인지에 대해서 조금 더 쉽게 예시를 들어 설명해 보겠습니다~

 

정리하는데 조금 시간이 걸릴 지 몰라요~ㅋㅋㅋㅋ

 

 

 

 

그때까지~기다려 주세용!!!

 

뿅!

 

 

 

 

본 리뷰는 지극히 개인적인 관점과 생각으로 작성된 주관적인 글 입니다?.

 

본 포스팅은 국방과학기술용어사전, 빅데이터 산업의 어두운 그늘 을 참고하여 작성 하였습니다.

 

 ⓒ 언제나 맑음 with 꼬대리 

 

URL 복사