59doit
데이터에듀 2장 본문
< KDD >
선택
전처리
변환
마이닝
마이닝결과 평가 활용
< CRISP-DM >
업무이해
데이터이해
데이터준비
모델링
평가
전개
< 빅데이터 분석방법론 >
*계층 : 단계 테스크 스텝
*5단계 : 분석기획 > 데이터준비 > 데이터분석 > 시스템구현 > 평가전개
1.분석기획
-비즈니스이해 , 범위설정:
-프로젝트 정의 , 계획수립:
-프로젝트 위험계획수립:
하향식 접근법
1. 문제탐색
- 비즈니스 모델 기반탐색( 거시적 관점의 메가트랜드, 경쟁자 확대 관점, 시장의 니즈 탐색 관점, 역량 재해석)
- 분석 기획 발굴의 범위 확장
- 외부참조 모델 기반 문제 탐색
- 분석 유즈 케이스
2. 문제정의
3. 해결방안탐색
4. 타당성 검토
-경제적 타당성
-데이터 및 기술적 타당성
상향식 접근법
1. 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정
2. 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론
; 기존의 논리적인 단계별 접근법 기반의 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합 하지 X
3. ★분석적으로 사물을 인식하려느 Why 가 아닌 사물을 있는 그대로 인식하는 What 관점에서 보아야한다
-> 인과관계로부터 상관관계 분석으로의 이동이 빅데이터 분석에서의 주요 변화
-> 데이터 분석을 통해서 "왜" 그런일이 발생 하는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는것
4. 비지도 학습
: 데이터 자체의 결합, 연관성, 유사성 중심으로 데이터 상태 표현
ex- 장바구니분석, 군집분석, 기술통계 및 프로파일링
*cf)지도학습: 명확한 목적 하에 데이터분석을 실시 ex-분류 추측 예측 최적화 를 통해 지식 도출
5. 시행착오를 통한 문제해결
프로타이핑 접근법 ; 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
분석과제관리 5가지 영역
Data Size :
Data Complexity
Speed
Analytic Complexity
Accuracy&Precision : 모델과 실제값 차이가 적다는 정확도를 의미하고 모델을 지속적으로 반복했을때의
편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미.
활용적인 면에서 Accuracy 가 중요, 안정성측면에선 Precision 주요
프로젝트관리 지침의 프로젝트 관리 체계
통합, 이해관계자 , 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통
integration, stakeholder, scope, resource, time, cost, risk, quality, procurement, communication
거버넌스 체계
Organization : 분석기획 관리 수행 조직
Process : 과제 기획 및 운영 프로세스
System : 분석관련 시스템
Data : 데이터
Human Resource : 분석 관련 교육 및 마인드 육성체계
데이터 거버넌스 체계
모든 데이터에 대하여 정책,지침, 표준화,운영조직 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는것 ; 마스터데이터, 메타데이터, 데이터사전 은 관리대상
-구성요소
Principle 원칙 : 유지관리하기위한 지침과 가이드-보안,품질기준,변경관리
Organization 조직 : 역할과 책임-데이터관리자,데이터베이스관리자,데이터아키텍트
Process 프로세스 : 활동 체계-작업절차,모니터링활동,측정활동
-체계
데이터 표준화 : 표준용어설정,명명규칙수립,메타데이터,데이터사전 구축 등의 업무
데이터 관리체계 : 정합성 활용의 효율성 , 관리와 운영을 위한 담당자 역할책임
데이터 저장소관리 : 데이터 관리하기 위한 저장소 구성 , 워크플로우, 관리용 응용소프트웨어 (어플리케이션) 지원
인터페이스를 통한 통제가 이루어져야함
표준화 활동 : 표준 준수 여부 주기적 점검 , 모니터링, 주기적인 교육
분석 준비도 & 성숙도
-준비도 :기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법
분석업무 파악 : 발생한 사실 분석, 예측 분석, 시뮬레이션, 최적화, 정기적개선
인력 및 조직 : 직무, 교육훈련 프로그램, 경영진의 업무이해능력, 전문가의 교육훈련 프로그램, 관리자의 총괄조직존재
분석기법 : 도입방법론, 라이브러리, 효과성 평가, 정기적 개선, 업무별 적합한 분석기법 사용
분석데이터 : 충분성, 신뢰성, 적시성, 비구조적 데이터관리, 외부데이터 활용체계, 기준데이터관리
분석문화 : 경영진의직관 vs 데이터기반의 의사결정, 관리자의 데이터 중시정도,
데이터 공유 및 협업문화, 회의;데이터활용상황
IT 인프라 : EAI, ETL , 통계분석, 빅데이터 분석, 서버.스토리지, 데이터통합
-성숙도 : 도입 > 활용 > 확산 > 최적화