59doit
ADsP 32회 기출 본문
4. 빅데이터 활용 요소 3가지로 올바른 것은?
데이터 인력 기술
6. 지도학습은 입력과 출력 모두 주어진 상태에서의 학습이며, 비지도 학습은 입력만 주어진 상태에서의 학습이다. 다음 중 그 종류가 다른것은?
가. 회귀분석
나. 군집분석
다. 감정분석
라. 분류분석
>> 나
**
회귀,감정,분류 -> 지도학습
군집 -> 비지도학슴
**
9. 다음은 무엇에 대한 설명인가?
구글의 인터넷에 연결된 네스트는 날씨와 기온 정보 그리고 집주인의 평소 온도 설정 DATA를 기반으로 사용자의 Context를 인식해 자동으로 온도를 설정해 주며, 아마존은 Dash라는 작은 장치는 WiFi가 내장된 바코드 인식기로 상품에 인쇄된 바코드를 Dash로 비추게 되면 그 상품을 아마존 장바구니에 저장할 수 있도록 해준다. 나이키의 경우 애플과 제휴하여 스마트한 운동 관리를 할 수 있도록 해주는 서비스로 자리 매김했다. 굳이 우리가 기계를 조작하지 않아도 모든 것이 사람을 위해 알아서 자동으로 돌아가는 세상이 이것이 보여줄 미래이다
>>> IoT(Internet of Things)
**
인터넷에 연결되어 IoT 애플리케이션이나 네트워크에 연결된 장치, 또는 산업 장비 등의 다른 사물들과 데이터를 공유할 수 있는 수많은 '사물'을 말합니다. 인터넷에 연결된 장치는 내장 센서를 사용하여 데이터를 수집하고, 경우에 따라 그에 맞게 반응한다.
**
12. ROI의 4V중 Return에 해당하는것은?
Value
**
Value (Return): 비즈니스 효과 요소
Volume, Variety, Velocity : 투자비용 요소
**
14.. 빅데이터 분석 방법론의 분석기획 단계의 Task 중에서 ‘비즈니스 이해 및 범위설정’ 단계에서
프로젝트에 참여하는 관계자들의 이해를 일치시키기 위해 작성하는 것은?
SOW (statement of work)
**
SOW : 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 작성하는 구조화된 프로젝트 범위 정의서
WBS : 프로젝트 수행 계획 수립단계에서 계획한 것을 완수할 수 있는 사람에게 할당해주는 역할을 함
ETL : 추출 변환 적재
EDA : 탐색적 데이터분석, 좀 더 정교한 모형 개발을 할 수 있음
**
17. 하향식 접근방식에 대한 설명으로 틀린것은?
X->하향식 접근 방식은 유사/동종 사례 벤치마킹을 통한 분석 기회 발굴을 하는 내부 참조 모델 기반 문제 탐색을 한다
>> 외부참조모델
O->하향식 접근 방식의 데이터 분석 기획의 단계는 문제 탐색, 문제 정의, 해결 방안 탐색, 타당성 검토 순서이다
O->분석 유즈 케이스는 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한
O->분석 유즈 케이스는 풀어야할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시한다.
** 하향식 접근방식의 문제탐색 단계**
-외부참조모델 기반 문제 탐색
유사/동종 사례 벤치마킹을 통한 분석 기회 발굴
제공되는 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석 테마 후보 목록을 빠르게 도출
-분석유즈케이스
풀어야 할 문제에 대한 상세 설명 및 해당문제를 해결했을때 발생하는 효과를 명시
향후 데이터 분석문제로의 전환 및 적합성 평가에 활용하도록함
18. 분석 준비도 프레임워크에 대한 내용은?
>>분석업무파악 분석인력및조직 분석기법 분석데이터 분석문화 분석인프라(IT인프라)
-분석업무파악
-분석인력 및 조직 : 교육훈련
-분석기법
-분석데이터 : 충분성 신뢰성 적시성 외부데이터활용 기술데이터관리 비구조적관리
-분석문화 : 경영진직관vs데이터기반 의 의사결정
-분석인프라(IT인프라) : ETL/ETI, 빅데이터분석환경, 통계, 비쥬얼, 스토리지 분석환경
20. 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상으로, 특정 사
안을 어떤 시각으로 바라 보느냐에 따라 해석이 달라진다는 이론
>>프레이밍 효과(Framing Effect)
25. 1종오류의 최대 허용 한계에 관한 확률은?
>> 유의수준
**
기각역:귀무가설을 기각하고 대립가설을 채택하게 되는 영역
검정통계량:귀무가설을 채택할지 기각할지를 정하는 파단 기준이 되는 통계량
2종오류:귀무가설이 거짓인데 채택한 오류
**
26. 표본조사에 대한 설명이 부적절한것은?
X->비표본 오차는 표본크기가 증가함에 따라 감소한다
>>표본의 크기에 비례하여 커진다 -> 표본의 크기가 크다고 좋은것만은 아니다
O->표본오차는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차
O->표본편의는 표출방법에서 기인하는 오차를 의미한다
O->표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
28. 파생변수에 대한 설명으로 옳지 않은것은?
X->파생변수를 해당 데이터셋을 대표하는 변수로 사용할수있다
>>
O->요약통계량을 이용한 변수생성을 통해 데이터 분석이 가능하다
O->★데이터에 포함된 나이 연속형 변수를 이용해 연령대 범주형 파생변수를 추가했다
O->파생변수는 매우 주관적일수잇으므로 논리적 타당성을 갖추어 개발해야한다
30. 주성분 분석에 대한 설명 중 옳지 않은것은?
X->가장분산이 적은 것을 제1주성분으로 설정한다
>>가장분산이 큰것(___________)
O->주성분 분석은 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합을 해 변수를 축약하는데 사용하는 방법이다
O->공분산 행렬은 변수의 특정단위를 그대로 반영한 것이고 상관행렬은 모든 변수의 측정단위를 표준화한것이다
O->공분산행렬을 이용한 분석의 경우 변수들의 측정단위에 민감하다.
32. 시계열 데이터에 대한 설명 중 가장 옳지 않은것은?
X->잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.
>>잡음은 원인이 알려져 있지않다.
O->시계열 데이터의 모델링은 다른 분석 모형과 같이 탐색 목적과 예측목적으로 나눌수있다.
O->짧은 기간 동안의 주기적인 패턴을 계절 변동이라한다.
O->시계열분석의 주목적은 외부인자와 관련해 계절적인 패턴 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.
41. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 K개의 모형 중 어느모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은?
>> 혼합분포군집
48. 전사적으로 구축된 데이터웨어 하우스로부터 특정 주제, 부서중심으로 구축된 소규모 단일 주제의 데이터웨어 하우스로 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고있다
>> 데이터마트
50. 모형의 성능을 평가하기 위한 척도로 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 향상도 등의 정보를 산출하여 나타내는 것
>> 이익도표 , Lift Chart
DML : SELECT UPDATE INSERT DELETE
DDL : CRATE ALTER DROP TRUNCATE
DCL : GRANT REVOKE COMMIT ROLLBACK
1:N : 하나의 개체가 여러개체에 대응
N:1 : 여러개체가 하나의 개체에 대응
SVM : 지도학습 모델(회귀,분류 모델이 있음)
SCM : 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재구매 데이터, 생산, 재고 데이터, 유통/판매 데이터, 고객 데이터로 구
성됨
분석 마스터 플랜 : 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중·장기로 나누어 계획을 수립하는 것
메타 데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이며, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터
기업의 합리적 의사결정 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과(Framing Effect)
단일 데이터 타입 구조 : vector, matrix, array, factor
복합 데이터 타입 구조 : list, data.frame
카이제곱 검정은 모수 검정, 비모수 검정이 모두 존재함
▪ 모수 검정 : 모분산에 대한 검정
▪ 비모수 검정 : 적합도 검정, 독립성,동질성 검정
주성분분석
독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화 함
k-fold 교차검증
주어진 데이터를 가지고 k번 반복적으로 성과를 측정해 그 결과를 평균한다.
k-fold는 데이터를 k개로 분할하는 것을 의미한다.
데이터가 충분하지 않은 경우 주로 사용한다.
LOOCV
1개 관측값 만을 validation set 으로 사용하고 나머지 n-1개를 train set으로 사용하여 n번 학습 진행
k=n인 경우의 교차검증
학습 후 n개의 MSE를 평균하여 최종 MSE를 계산함
평균연결법 : 계측적 군집 중 응집형 군집 방법으로 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산양이 많아질 수 있음
SOM : 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는 기법
DBSCAN : 어느 점을 기준으로 반경 x내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식을 의미하며, 임의적 모양의 군집분석
'ADsP > 오답정리' 카테고리의 다른 글
ADsP 34회 기출 (0) | 2022.10.21 |
---|---|
ADsP 33회 기출 (0) | 2022.10.21 |
ADsP 31회 기출 (0) | 2022.10.19 |
ADsP 30회 기출 (0) | 2022.10.19 |
ADsP 29회 기출 (0) | 2022.10.19 |