본문 바로가기
Software Science

빅데이타 분석 맛보기

by 101Architect 2023. 3. 8.

 

BigData 강의

BigData 에서 이야기 하는 VVV 란?

Volume : 데이터의 축적 기하급수적 폭등

Variety : 비정형의 데이터

Velocity : 빠른 응답을 요구

 

<빅데이터 활용>

이상현상 감지, 가까운 미래 예측, 상황 및 기회 창출 등

ex) 카드의 위치를 통한 이상 현상 감지 짦은 시간내에 여러 지역에서 사용되거나 하는 행위

마이너리그 리포트처럼 범죄가 일어나기 전에 찾아 냄

 

<빅데이터 라이프사이클>

1. 수집

2. 저장

3. 탐색/처리

4. 분석

5. 프레젠테이션

NoSQL(Hadoop) : 수집~분석

Analytics(R, mahout) : 분석~프레젠테이션

 

<하둡>

연혁 : 데스크탑분석 -> 웹,기술을 HTML 전목 -> GFS(Google distributed File Systems) 결합

분산컴퓨팅 : 마스터서버가 각각의 서버들에게 저장, 분석, 처리 등을 명령하는 구조

장점 : 접근성, 견고성, 확장가능성, 간단성

보통 분산/저장/처리/ 각각 다르게 관리

하둡은 연산코드가 각 서버에 전부 존재

구성 : HDFS 하둡 분산 파일 시스템, MapReduce 처리, YARN 미들웨어 분석

처리절차 : 수집 -> HDFS 마스터가 어디에 넣을지, 백업은 할지 어디서 읽을지 등을 명령 -> MapReduce (key, value) 를 가지고 데이터 정렬 또는 재정렬 시킴

- Mapping : 데이터를 알맞게 잘라서 각각의 서버에 저장

- Reducing : 잘린 데이터들을 분석하고 빈도수 등을 체크

- Shuffling : 다시 결합하여 결과 도출

YARN : 중간계층으로 다른 에코시트템과의 연결

 

<분석>

Text Mining : 사진,음성, 영상 등의 정보를 텍스트 정보로 저장하여 정형화 되지 않은 데이타 탐색방법

Opinion Mining : 사실과 의견의 구분, 긍정과 부정의 구분, 강도 가중치 부여, 문장단위로 분석결과 도출

Social Network Analystics : 관계의 중심에서 사람을 찾음 (ex: 친구가 가입한 클럽의 추천)

Density : 관계 밀도

Neighbor : 1:1 맞팔, 1:N

Centrality : 관계의 중심

Clique : 그룹핑 클러스터링과 유사

정의 : 데이타 분석툴로 SNS 분석 등을 할 수 있고 소스들이 많음

 

<보안점>

빅데이터의 보안 미읍 개인정보의 익명성 암호화

엔지니어링 + 분석의 융합이 힘듬

오픈소스 (하둡) 의 위험함

데이타의 공유부족

의미있는 데이터의 추출이 힘듬

데이터의 구조보다 내용만 봄

리더쉽과 시스템이 갖추어 져야 함

 

* 용어

- Scale up : 서버의 한장비에서 램, CPU 등을 업그레이드

- Scale out : 동일한 스팩의 서버를 추가 네트웍으로 연결하여 업그레이드

- DW : Data Warehouse

- BI : Business Intelligence

 

 

반응형

'Software Science' 카테고리의 다른 글

Enterprise Architecture EA  (0) 2023.06.04
web browser의 가치관  (0) 2023.03.19
100년된 IBM, 10년된 Agile  (0) 2023.03.08
UML Class Diagram 을 자바 소스로 구현 기준  (0) 2023.03.08
실전파이썬프로그래밍  (0) 2018.07.28