59doit
ADsP 모의고사 2회 본문
2. 데이터와 정보의 차이를 구분하는 것은 중요하다. 다음중 정보에 대한 예로 부적절한것은?
X-> 주문수량
O-> 평균구매액
O-> 베스트셀러
O-> 우량고객
12. 분석 과제를 도출하기 위한 상향식 접근방식에 대한 설명으로 옳지않은것은?
X-> 분석적으로 사물을 인식하려는'WHY'관점에서 접근한다
>>하향식접근방식
O-> 데이터분석은 비지도 학습방법에 의해 수행된다
O-> 인과관계로부터 상관관계분석으로의 이동이라는 변화를 만들었다
O-> 사물을 있는 그대로 인식하는'WHAT'관점에도 접근한다.
18. R에서 사용가능한 데이터 오브젝트에 관한 설명으로 가장 부적절한 것은?
X-> 데이터 프레임은 테이블로 된 데이터 구조로써 행렬로 표현된다.
>> 테이블로된 구조 O , 행렬X-> 리스트 구조로 구현된다.
O-> 차원을 가진 벡터를 행렬이라고 한다.
O-> 리스트에서 원소들은 다른 모드여도 상관없다
O-> 벡터에서 모든 원소는 같은 모드여야한다.
20. ★종속변수를 설명하는데 가장 중요한 독립변수는?
>> 표준화 자료로 추정한 계수가 가장 큰 변수
24. 확률변수에 관한 설명이다. 설명이 옳지 않은것은?
X-> 연속형확률변수는 확률변수의 공간이 무한한 경우를 의미하며, 베르누이,포아송,정규분포가 해당된다
>> 베르누이, 포아송 분포는 이산형 확률분포 / 정규분포, T분포 F분포 는 연속형확률분포
O-> 확률변수는 특정갑이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다
O-> 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며, 이항분포,기하분포, 다항분포가 해당된다.
O-> ★균일분포는 확률변수의 구간[a,b]내에서 모든 확률이 동일한 분포를 의미하며 확률은 1/(b-a)이다
29.★
독립변수 유의성 볼 때는 Conficients > Pr(>|t|) > Signif 확인
회귀모형 유의성 볼 때는 맨아래 p-value 값 확인
33. ★비모수적방법에 대한 설명으로 부적절한것은?
X-> 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시한다
>>모수적검정방법
O-> 관측된 자료가 주어진 분포를 따른다는 가정을 받아들일 수 없을때 이용하는 검정법이다.
O-> 자료가 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다
O-> 관측된 자료가 특정분포를 따른다고 가정할수없을때 이용한다.
**
비모수검정방법
: 모집단의분포에 아무 제약을 가하지 않고 검정을 실시하고 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용한다. 관측된 자료가 특정분포를 따른다고 가정할수없을때 이용한다.
39. ★ 아래의 산점도 행렬에 대한 설명으로 가장 부적절한 것은?
X->ozone과 wind간에는 양의 상관관계가 있다
O->temp와 wind 간의 관계는 상대적으로 선형이다
O->solar.r와 ozone의 관계는 명확하지 않다
O->wind와 solar.r간에는 비선형 관계가 있다.
주관식
3. 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결 했을때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것은 무엇인가?
>> 분석유즈케이스
7. 의사결정나무 중 연속형 타킷변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?
>> 회귀나무
10.
**
B2B기업은 기업 간의 전자 상거래를 진행하여 지속적인 데이터가 생성되기 어렵다
B2C기업은 고객을 상대로 하기 때문에 고객의 데이터가 지속적으로 생성된다
빅데이터의 가치 산정이 어려운이유
- 데이터 활용 방식
- 새로운 가치 창출
- 분석기술 발전
KDD 분석절차
-데이터셋 : 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수 이며 데이터 베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택. 필요한 목표데이터를 구성하여 분석에 활용한다.
-데이터전처리 : 잡음,이상치,결측치 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제
-데이터변환:데이터의 차원을 축소하여 데이터마이닝을 할 수 있도록 데이터에 변경하는 단계, 학습용데이터와 검증용데이터로 분리하는 단계
-데이터마이닝:데이터마이닝 기법선택,적절한 알고리즘 적용, 필요에따라 추가로 전처리와 변환을 실행
-마이닝결과평가:지식을업무에활용
CRISP-DM은 폭포수 모델처럼 일방향으로 구성되지 않고 단계 간 피드백을 통하여 단계별 완성도를 높인다.
업무이해 : 요구사항이해, 문제정의로 변경 - 업무목적파악, 상황파악, 데이터마이닝 목표설정, 프로젝트 계획수립
데이터이해 : 데이터수집, 인사이트발견 - 초기데이터수집, 데이터 기술분석, 데이터 탐색, 데이터 품질확인
데이터준비 : 분석기법에 적합한 데이터 편성 - 분석용 데이터 셋 선택, 데이터정제, 분석용 데이터 셋 편성, 데이터 통합, 포맷팅
모델링 : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 과적합문제확인 - 모델링기법선택, 테스트계획설계, 모델작성, 모델평가
평가 : 모델링결과가 목적에 부합하는지 평가, 최종적으로 수용할것인지 판단 - 분석결과평가, 모델링과정평가, 모델 적용성 평가
전개 : 실업무에 적용하기위한 계획을 수립하는 단계 - 전개 계획 수립, 모니터링, 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
*빅데이터의 비유
-산업혁명의 석탄, 철 :
-21세기의 원유 :
-플랫폼 :
-렌즈 : 구글의 Ngram Viewer 을 통해 확인하기 힘들었던 부분을 찾을 수 있도록함
분석프로젝트 관리는 일정계획 수립시 데이터 수집에 대한 철저한 통제와 관리보다 분석 범위가 빈번하게 변경되므로 시간이 소요될 수도 있다. Time Boxing기법과 같은 방법으로 일정관리를 진행해야한다.
최종결과물이 분석 보고서 형태 또는 시스템인지에 따라 프로젝트 관리에 차이가 있다.
분석과제의 주요관리 영역 : Data Size, Data Complexity, Speed, Analytic&Complexity, Accuracy&Precision
중심극한정리
: 비정규적인 모집단에도 사용가능하다.
표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다.
모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야한다.
비율척도는 측정대상의 값이 비율로 정의되는 자료 X
-> 측정대상의 간격에 대한 비율이 의미를 가지는 자료 O
전진선택법으로 변수를 추가할 때 기존의 변수들의 중요도는 영향을 받는다
>> 변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수를 활용하지 못하게 된다.
분해시계열 분해요소 : 추세,계절,순환,불규칙
다중회귀분석
두개이상의 독립변수를 사용해 하나의 종속변수의 변화를 설명하는 다중회귀분석에서 모형을 적합시킨 후 모형이 적절한지 확인하기 위해 체크해야 할 사항
: F-value (통계적 유의함), t-value, p-value 통해 유의한지 확인, 모형이 데이터에 잘 적합되어 있는지 확인
★ 상관계수를 통해 설명력확인 : 회귀분석 이전의 단계에서 실행 ★
주성분분석
차원의 단순화를 통해 서로 상관이 있는 변수들 간의 복잡한 구조를 분석하는것이 목적
회귀분석에서 다중공선성의 문제를 해결하기위해활용
p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는것으로 m개의 주성분은 원래변수에서 선형결합으로 생성된 변수이다.
데이터마이닝
데이터가 충분하지 않을때는 구축용과 시험용데이터만 구분하여 활용한다.
필요에 따라서는 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가한다.
의사결정나무 알고리즘 : 민감하지 않음 > 분류가 쉬움
과적합 : 훈련데이터의 작은 변화에 민감함
지지도 : 전체거래중 품목 A와 품목 B를 동시에 포함하는 거래의 비율
신뢰도 : A를 포함한 거래 중에서 A와 B가 같이 포함될 확률은 어느정도인가를 나타내 주는 연관성의 정도
향상도 : A가 주어지지 않았을때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가비율
'ADsP > 오답정리' 카테고리의 다른 글
ADsP 27회 기출 (0) | 2022.10.18 |
---|---|
ADsP 26회 기출 (0) | 2022.10.18 |
ADsP 모의고사 1회 (0) | 2022.10.18 |
데이터에듀 ADsP 03.데이터분석 (0) | 2022.10.17 |
데이터 에듀 ADsP 03.데이터분석 (0) | 2022.10.17 |