59doit
ADsP 34회 기출 본문
3. 빅데이터의 가치측정이 어려운 이유가 아닌것은?
X-> 빅데이터 전문 인력의 증가로 다양한 곳에서 빅데이터가 활용되고있다
O-> 데이터 재사용이 일반화되어 특정데이터를 언제 누가 사용하였는지 알기 힘들다
(데이터의 활용방식)
O-> 빅데이터는 기존에 존재하지 않던 가치를 창출한다
(새로운 가치 창출)
O-> 데이터 분석기술의 발전으로 과거에는 분석할수 없었던 데이터도 분석할 수 있게 되었다.
(분석기술의 발달)
4. 다음 중 분석 과제 정의서에 필수적으로 포함되어야 할 항목이 아닌것은?
X-> 상세 분석 알고리즘
O-> 필요소스 데이터/분석정의
O-> 데이터 입수 난이도
O-> 분석 수행주기
** 분석과제 정의서 : 분석명, (필요한)소스데이터, 분석정의, 데이터입수난이도, 데이터 입수사유, 분석적용난이도, 분석적용 난이 사유, 분석수행주기, 분석결과에 대한검증, 분석과정 상세**
5. 다음중 데이터 사이언스에 대한 설명으로 올바르지 않은것은?
X->주로 분석 정확성에 초점을 맞춰 수행한다
O->데이터에서 의미 있는 정보를 찾는 학문이다
O->정형데이터 뿐만 아니라 다양한 유형의 데이터를 활용한다
O->기존의 통계학과는 달리 총체적 접근법을 사용한다
11. 데이터분석과제에서 분석 프로젝트 관리에 대한 설명 중 틀린것은?
X-> 분석과제는 분석전문가의 상상력을 요구하므로 일정을 제한하는 일정계획은 적절하지 못하다
O-> 분석과제는 적용되는 알고리즘에 따라 범위가 변할 수 있어 범위관리가 중요하다.
O-> 분석과제에서 다양한 데이터를 확보하는 경우가 있어 조달관리 또한 중요하다
O-> 분석과제에는 많은 위험이 있어 사전에 위험을 식별하고 대응방안을 수립해야한다.
**
관리영역에서 일반 프로젝트와 다르게 유의해야 할 요소 존재
시간, 범위, 품질, 통합, 이해관계자, 자원, 원가, 리스크, 조달, 의사소통
**
13. 분석 마스터 플랜에 대한 내용으로 틀린것은?
X-> 전체 과정을 순환적이고 반복적인 단계로 작성한다
>> 모든단계를 반복하기보다 데이터 수집 및 확보와 분석데이터를 준비하는 단계를 순차적으로 진행한다.
O-> 분석과제의 적용범위 방식에 대해서도 종합적으로 고려하여 결정한다
O-> 일반적인 IT프로젝트의 우선순위로는 전략적 중요도와 실행용이성이 있따
O-> 분석 마스터 플랜의 순서는 "중장기마스터플랜수립 -> 단기적인 세부 이행계획수립 -> 과제별 우선순위"
**
분석마스터 플랜 수립시 고려요소
우선순위 : 전략적 중요도, ROI(투자자본수익률), 실행용이성
★ 적용범위/방식 고려요소 : 업무 내재화 적용수준, 분석 데이터 적용수준, 기술적용수준
15. CRISP-DM에 대한 내용으로 올바른것은?
데이터 이해에서 데이터 준비단계로 갈 수 있다
모델링단계에서 학습용/테스트용 데이터를 사용해 과소적합을 확인한다
비즈니스 이해, 데이터 이해 간 피드백이 가능하다
평가에서 모델이 프로젝트의 목적에 부합하는지 평가하는것으로 마이닝 결과를 수용할 것인지 판단한다->프로젝트에 바로 투입 X
17. 빅데이터 분석 방법론 분석기획시 고려사항으로 틀린내용은?
X-> 타당성 단계에서 데이터 및 기술적 타당성은 복잡한 문제이기 때문에 다양한 사람들의 의견을 들어보는 것이 중요하다
>> 틀린내용은 아니지만 분석기획시 고려사항이 아니라 마지막단계에서 고려할 사항이다.
O-> 장애요소 사전계획 수립 필요
O-> 분석을 위한 데이터 확보 및 데이터 유형에 대한 분석이 선행되어야한다 (가용한 데이터)
O-> 유사분석시나리오 및 솔루션이 있다면 이를 최대한 활용해야한다(유즈케이스 탐색)
18. 분석프로젝트의 관리방안에 대한 설명 중 적절하지 않은것은?
X-> 모델을 지속적으로 반복했을 때 편차의 수준을 정확도 라고 한다
>> 정밀도
O-> 분석의 활용적인 측면에서는 정확도가 중요하며, 안정적인 측면에서는 정밀도가 중요하다.
O-> 난이도에 우선순위 기준을 놓으면 시급성이 높고 난이도 쉬운 과제가 가장 먼저 수행되어야한다
O-> 시급성이 높고 난이도가 높은 분석과제는 경영진에 의해 조정 가능하다
**
Accuracy(정확도) : 분석의 활용적인 측면 - 모델과 실제 값의 차이
Precision(정밀도) : 분석의 안정적인 측면 - 모델을 반복 했을 때의 편차
정확도와 정밀도는 트레이드오프인 경우가 많다
모델 해석 및 적용시 사전에 고려해야한다
확용실, 안밀반
**
25. apriori 알고리즘의 분석절차
1. 최소지지도를 설정한다
2. 개별 품목들 중에서 최소 지지도를 넘는 모든 품목들을 찾는다.
3. 이전 단계에서 찾은 개별 품목만을 이용하여 최소지지도를 넘는 두가지 품목을 찾는다
4. 이전 단계에서 찾은 품목의 집합을 결합하여 최소 지지도를 세가지 품목의 집합을 찾는다.
5. 반복적으로 수행하여 최소 지지도가 넘는 반발품목을 찾는다.
30. 의사결정 나무에 대한 설명 중 적절하지 않은것은?
X-> 비지도 학습으로 상향식 접근방법을 이용한다
>> 지도 학습, 비모수적 모형이다
O-> 구조가 단순하여 해석이 용이하다
O->★목표변수가 이산형인 경우 분류나무, 연속형인 경우 회귀나무가 있다.
O-> 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다.
31. ▶인공신경망의 활성함수
시그모이드
소프트맥스
계단함수
부호함수
34. 회귀분석 설명 중 가장 적절하지 못한 것은?
X-> 독립변수와 종속변수의 인과관계가 중요하다.
>> 상관관계가 중요하다 / 인과관계는 회귀분석과 관련 없음
O-> ★성별과 같이 두집단으로 분류된 명목형 자료여도 회귀분석에서 독립변수로 사용할 수 있다
O-> ★잔차와 독립변수 간의 상관관계가 없다
O-> 결정계수는 독립변수가 종속변수의 분산을 설명할수 있는 정도를 나타낸다
35. ★★★주성분 분석의 내용중 가장 적절하지 않은것은?
X-> 원래변수를 선형결합 할 때 목표변수를 고려할 필요는 없다
>> 목표변수를 고려해 목표변수를 잘 예측/분류할 수 있는 선형결합으로 이루어진 몇개의 주성분을 찾아내기 위한 것이다.
O-> 회귀분석의 다중공선성 문제 해결을 위해 사용한다 (+비지도학습이다)
O-> 서로 상관성이 높은 변수를 선형 결합하여 변수를 축소, 해석상 구조적 문제해결을 위해 사용한다
O-> 다변량 데이터의 저차원 그래프 표시 및 이상치 탐색에 사용한다
**
주성분 분석은 다른 통계적 분석을 하기위한 사전 기초분석에 사용된다
주성분분석의 Scree plot해석: 보여주는 모든 변수로 100% 분산을 설명할 수 있다
Scree plot 은 x축을 주성분개수, y축을 고윳값(설명가능한 분산값)으로 하는 그래프이다.
**
43. 회귀모형을 평가하는 방법으로 옳지 않은것은?
X-> 선형성, 정상성, 독립성을 만족하는가?
>> 데이터 탐색 단계에서 설명변수와 종속변수간 선형성이 있는지, 잔차가 정상성, 독립성을 갖는지 평가
O-> 모형이 통계적으로 유의한가?
O-> 모형이 데이터를 잘 적합하는가?
O-> 회귀계수가 유의한가?
45. 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법
>> 랜덤포레스트
47. 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집분석 타당성 평가 지표로 1에 가까울수록 군집화가 잘 되었다고 판단
>> 실루엣 계수
49. 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참값이라고 여겨지는 하나의 모수를 택하는 것
>> 점추정
DBMS :
우리나라에서 일반적으로 많이 사용되는 데이터베이스 관리 시스템은 관계형 DBMS이다.
사용자들이 동시에 트랜잭션 하는 경우에도 즉각적으로 결과값을 확인할 수 있다
계정을 가진 모든 사용자가 접근이 가능하다
장애가 발생했을때의 원인, 상태 파악이 어려우며, 전체 시스템의 업무처리가 중단되는 단점을 가지고 있다 -> 즉, 모든 데이터 문제를 해결할수 있다 (X)
데이터웨어하우스:사용자의 의사결정에 도움을 주기 위하여, 다양한 운영 시스템에서 추출,변환, 통합되고 요약된 데이터베이스이다
★BI와 다름
데이터마트:전사적으로 구축된 데이터웨어하우스로부터 특정주제,부서중심으로 구축된 소규모 단일주제의 데이터웨어하우스로, 대게 특정 조직 혹은 팀 등 제한된 사용자 그룹에게 서비스가 제공된다.
빅데이터분석
빅데이터의 걸림돌은 분석적방법과 성과에 대한 이해부족이다
기업의 핵심 가치와 관련해전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는것이 어렵다
★분석준비도
분석업무파악 : 발생한 사실 분석 업무, 예측분석업무, 시뮬레이션분석업무, 최적화분석업무, 분석업무 정기적개선
인력 및 조직 : 분석전문가 직무존재, 교육훈련프로그램, 관리자들의기본적 분석 능력, 전사분석업무 총괄 조직존재, 경영진의 분석업무 이해능력
분석기법 : 업무별 적합한 분석기법사용, ★(분석업무파악영역이랑 헷갈리지말것!!!)분석업무 도입 방법론, 분석기법 라이브러리, 분석기법 효과성평가, 분석기법 정기적개선
분석데이터 : 충분성,신뢰성,적시성, 비구조적데이터관리, 외부데이터활용체계,기준데이터관리(MDM)
분석문화 : 사실에 근거한 의사결정, 관리자의 데이터 중시정도, 회의 등에서 데이터 활용상황, 경영진의 직관VS데이터기반의 의사결정, 데이터 공유 및 협업 문화
IT인프라 : 운영시스템 데이터 통합, EAL/ETL등 데이터 유통체계, 분석전용 서버 및 스토리지, 빅데이터 분석환경, 통계분석환경, 비쥬얼 분석환경'
하향식접근방법
: 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다
★비즈니스 모델 캔버스를 문제 탐색 도구로 활용한다.
빅데이터 분석 방법론
기획 : 비즈니스 이해&범위 설정, 프로젝트 정의&계획수립, 프로젝트 위험 계획수립
준비 : 필요데이터 정의, 데이터 스토어 설계, 데이터수집&적합성 점검
분석 : 분석용데이터 준비, 텍스트분석, 탐색적분석, 모델링, 모델평가&검증
시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영
평가 및 전개 : 모델 발전계획, 프로젝트 평가보고, 평가및전개
boxplot은 데이터의 전체적인 분포를 확인 할 수 있다
군집분석 vs 분류분석
임의적선택 , 비지도 / 범주정해져있음
회귀분석 vs 분류분석
종속변수 : 연속형 / 범주형
Voting
앙상블 기법중 하나
서로 다른(같은x) 여러개의 알고리즘 사용
여러개의 모형을 생성하고 결과를 집계하여 많은 표를 받은 것을 담으로 하는 방식
Hard voting : 다수결의 원칙에 따라 가장많은 빈도의 것을 최종결과로함
soft voting : 확률의 평균을 구해 높은것을 선택
스태킹 : 두단계의 학습을 사용하는 방식으로 서로 다른 여러 모형의 예측 결과를 다시 학습데이터로 하는 모형을 사용함
연관규칙
비목적성 분석기법
분석계산 간편
대표적인 알고리즘 -> aprior
조건반응으로 표현되는 연관분석의 결과를 이해하기 쉬움
분석품목수 多 -> 분석계산 증가
너무 세분화된 품목을 가지고 연관 규칙을 찾으면 의미없는 결과가 도출됨
거래량이 적으면 규칙 발견 시 제외되기 쉬움
★군집분석
비지도학습으로 군집간 분산 최대화, 군집내 분산 최소화 한다.
집단별 특성이 유사할 경우 안정성이 높다
*안정성은 일부 입력값이 변경되었을때 군집의 변화가 유의하게 변하는지에 대한 개념
유사성을 이용하여 몇개의 집단으로 그룹화 하는 분석이다
군집분석에 있어 군집타당성 검증을 위해 논리성과 안정성 모두가 중요한 부분이다
정규성(정상성)을 만족하지 못할때는 변수변환을 통해 해결방안을 고려 할 수 있다.
- Q-Q plot, Histogram, Shapiro Wilk test, Kolmogorov-Smirnov test, Anderson-Darling test
가설검정 : 귀무가설, 대립가설을 세우고, 유의수준을 설정 한 뒤, 검정통계량을 구하는 과정을 통해,
모수의 새로운 가설을 옳다고 판단할 수 있는지 표본 통계량 평가 판단하는 과정
시계열데이터
: 데이터에 포함된 잡음은 독립성을 갖는다
지수평활법▶
전체 시계열 자료를 이용하여 평균을 구하고, 최근 시계열에 더 큰 가중치를 적용하는 방법이다
지수평활을 사용하여 얻은 예측값은 과거 관측값의 가중평균에서
knn
인스턴스 러닝기법이다
= Lazy 러닝
= 게으른 학습
실제로 데이터가 들어왔을때 학습한다는 의미
k 값이 클수록 과소적합
작을수록 세부적으로 분류할 수 있는 과대적합
피어슨 상관계수는 비율척도,상관계수가 0이면 서로 선형관계가 없음
공분산은 측정단위에 영향을 받음
상관계수는 측정단위에 영향을 받지 않음
'ADsP > 오답정리' 카테고리의 다른 글
ADsP 33회 기출 (0) | 2022.10.21 |
---|---|
ADsP 32회 기출 (0) | 2022.10.21 |
ADsP 31회 기출 (0) | 2022.10.19 |
ADsP 30회 기출 (0) | 2022.10.19 |
ADsP 29회 기출 (0) | 2022.10.19 |