59doit

ADsP 30회 기출 본문

ADsP/오답정리

ADsP 30회 기출

yul_S2 2022. 10. 19. 09:28
반응형

4. 빅데이터의 활용으로 알맞지 않은것은?
X->데이터수집 저장
>>일반적인 데이터를 활용해서도 가능함
O->고객 맞춤형 서비스 제공
O->교통패턴, 지역 인구기반 상권분석
O->물류 등 유통 효율성 제고
**
기업 : 혁신, 결쟁력제고, 생산성이향상 
정부 : 환경탐색, 상황분석, 미래대응
**


9. 메타데이터 관리, 데이터 사전관리, 데이터 생명주기 관리  >> 의 데이터 거버넌스 체계가 설명하는 항목은?

>> 데이터 관리 체계 177P
**
cf) 
데이터 표준화 : 표준용어 설정, 명명규칙수립, 메타데이터구축, 데이터 사전 구축
데이터 저장소관리 : 메타데이터 및 표준데이터 관리하기 위한 전사차원의 저장소
표준화활동 : 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시, 
**


15. 분석방안 구체화에 대한 설명 중 알맞은 단계는?
-정의된 의사결정 모형의 분석 컨텍스트별로 수행할 분석을 정리하여 의사결정을 위한 전체 분석 세트와 관계를 도출함
-각 분석들의 관계와 집합은 의사결정을 위한 시그널 허브로 작동
-중간단계의 분석 결과들도 의사결정자들에게 필요한 시그널로 작동
 -지속적으로 보완되는 과정을 거쳐 의사결정 모형의 분석체계 확정

>> 분석 체계 도출

** 
▶cf)
의사결정 요소 모형화
분석필요 데이터 정의
분석 ROI 평가
**



18. 계층적 군집방법은 두 개체 간의 거리 에 기반하여 군집을 형성해나가므로 거리에 대한 정의가 필요한데, 다음 중 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리는?
>> 마할라노비스 거리
: 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 이를 표준화한 거리이다. 두 벡터 사이의 거리는 산포를 의미하는 표본 공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본 공분산S를 게산 할 수 없으므로 사용하기 곤란하다
**
425
cf)
----------연속형변수---------
유클리디안거리 : 데이터간의 유사성 측정,통계적개념 내포 X
표준화거리 : 해당변수의 표준편차로 척도 변환한 후 유클리드안 거리를 계산 하는방법 
> 척도의 차이 ,분산의 차이로 인한 왜곡을 피할 수 있음
맨하탄거리 : 최단거리 
민코우스키 거리 : 맨하탄거리(L1)+유클리디안거리(L2)

----------범주형변수---------
자카드 거리&계수
코사인거리&코사인유사도
**





19. ★앙상블 모형은 여러 모형의 결과를 결합함으로써 단일 모형으로 분석했을 때보다 신뢰성 높은 예측값을 얻을 수 있다. 다음 중 앙상블 모형의 특징으로 옳지 않은 것은?
X->각 모형의 상호 연관성이 높을수록 정확도가 향상된다
>> 정확도는 떨어진다
O->이상값에 대한 대응력이 높아진다
O->전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다
O->모형의 투명성이 떨어져 원인 분석에는 적합하지 않다


21.
X-> 후진제거법 이므로 하나씩 제거 !! >> 11개의 변수 다음STEP에서 제외X
O-> 후진제거법을 통한 변수선택 >> direction = "backward" 로 알수 있음
O-> 모든 설명변수가 포함된 모형에서 시작 >> if전진제거법이라면 하나씩 선택해서 추가/ 후진제거법이라 모든 설명변수가 있는 상태에서 시작한다고 생각
O-> 한번 제거된 변수는 다시 모형에 포함될수 없다 >> 하나씩 제거



22.
X-> income 의 Pr(>|z|) 를 보면 문제에서 말하는 유의수준 0.05보다 크므로 유의하지 않음
O-> balance 의 Pr(>|z|) 는 유의수준 0.05보다 작으므로 유의함 
O-> studenYes 의 Pr(>|z|) 는 유의수준 0.05보다 작으므로 유의함 
O-> ★★★balance 는 income이 동일할때 학생일수록 default가능성이 낮다
(?) studentYes*(-6.468e-10) + balance*(5.737e-03) + income*(3.033e-06) 에서
    balance 는 income이 동일할때  라고 하였으므로 income을 제외한(또는 balance를 제외한)
    studentYes*(-6.468e-10) + balance*(5.737e-03)  값은 음수값이므로 default 가능성이 낮다고 생각함... (풀이 방법 맞나?) 







31. ★적합된 회귀모형의 안정성 평가하기 위한 통계적 방법을 영향력 진단이라 한다. 자료에서 특정 관측치가 제외됨에 따라 분석 결과의 주요 부분에 많은 변동이 있다면 안전성이 약하다고 판단된다.
각 개체의 영향력 진단에 대한 설명으로 부적절한것은?
X->DFFITS의 절대값이 매우 큰 관츤개체는 y의 예측에 영향력이 크다고 간주한다
>>> 절대값이 공식에 대입한 값보다 큰값이 나타나야 영향력이 크다고 간주함
O->쿡의 거리는 관측 개체 하나가 제외되었을때 최고제곱추정치 벡터의 변화를 표준화한 측도
O->영향점은 비교할 대상이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀 계수 추정값을 변화시키는 관측개체
O->DFBETAS 의 절대값이 유난히 큰 관측개체는 해당 회귀계수의 추정에 대하여 큰 영향력을 행사하는것으로 간주





37. (27회 19번 비교)
X-> Weight의 중앙값은 261.3 >> 258.0 이다
O-> feed는 범주형 변수이다 > 범주형 변수 : 이름에 해당하는 자료
O-> whight의 범위는 315 이다 > 3rd Qu - 1rd Qu : 423-108
O-> 약 25%의 닭의 weight가 204.5보다 작다
>>★★★ 정규분포를 그렸을 때 " 25% < 1st Qu " , "3stQu > 25%"
작은 부분을 말하고 있기 때문에 1st Qu의 수치인 204.5 보다 작은 공간의 값을 의미한다.

38. 
★★★★★(?) 2번보기


주관식
2. 기업내부 데이터 베이스 중 기업 전체가 경영자원을 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기위한 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적으로 관리하기 위한 기업 경영 정보 시스템
>> ERP
**ISP랑 헷갈리지 않기**


3. 데이터거버넌스란 전사차원의 모든 데이터에 대하여 정책, 지침, 표준화,운용조직,책임등이 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다. 특히 (  ), (  ), (  )는 데이터 거버넌스의 중요한 관리대상이다

>> 마스터데이터 , 메타데이터, 데이터 사전



4. (    )은 전략적 중요도가 핵심이며, 이는 현재의 관점에서 전략적 가치를 둘 것인지, ㅁ래의 중장기적 관점에 전략적인 가치를 둘 것인지 고려하고, 분석 과제의 목표가치(KPI)를 함께 고려하여 (   )의 여부를 판단 할 수 있다.

>> 시급성



9. 오분류표에서 실제/예측 True와 실제/예측 False가 100으로 동일하다고 한다 . 민감도가 0.8이라고 할 때 정확도는 얼마인가?
>> 0.8



10. 데이터의 패턴을 발견하고 데이터 모델의 변수를 자동으로 학습한다. 자체 알고리즘을 사용하여 시간이 경과함에 따라 경험을 축적하면서 작업 성능이 향상된다
>> 머신러닝 or 기계학습



미래사회의 특성과 빅데이터의 역할
불확실성 - 통찰력
리스크 - 대응력
스마트 - 경쟁력
융합 - 창조력



데이터베이스의 일반적인 특징
통합된데이터 - integrated data
저장된데이터 - stored data
공용데이터 - shared data ★
변화되는데이터 - changable data 



과제 중심적인 접근방식
: Quick-Win , Problem Solving, Speed & Test
장기적인 마스터 플랜방식
: Accracy & Deploy

상향식 접근방식 : 인사이트를 도출한 후 반복적인 시행착오를 통해서 수정하며 통해서 수정하며 문제를 도출하는 일련의 과정이다.
일반적으로 상향식 접근방식의 데이터 분석은 비지도방식

▶타당성검토의 과정을 거치며 경제적, 데이터 및 기술적 타당도 등이 있다.

Design thinking
:왜 IDEO가 이러한 개념을 사용하게 되었는지(The Origin of Design Thinking,디자인 사고의 기원), 그리고 사용자에 대한 관찰과 공감으로부터 문제 해결의 실마리/영감을 얻는 Inspiration 단계-> 이를 구체적인 아이디어로 확산과 집중의 사고를 반복하며 확장하는 Ideation 단계, 마지막으로 '프로토타이핑'을 통해 시제품을 만들어서 테스트해보고, 반복하는 실패로부터 점점 정답에 근접하는 Implementation 단계



★★172P
분석준비도는 기업의 데이터 분석 도입의 수준을 파악하기위한 진단 방법으로 6가지 영역이 있다.
분석업무파악 : 발생한 사실 분석업무,예측분석, 시뮬레이션분석, 최적화분석, 분석업무 정기적개선
분석기법 : 업무별 적합한 분석기법 사용, 도입방법론, 라이브러리, 효과성평가, 정기적개선
분석인력 및 조직 : 전문가직무존재, 전문가 교육훈련 프로그램, 관리자들의 기본적 분석능력, 전사분석업무총괄조직존재, 경영진의 분석업무 이해능력
분석 데이터 : 충분석,신뢰성,적시성, 비구조적데이터관리,외부데이터활용체계, 기준데이터관리(MDM)
분석문화 : 경영진의직관vs데이터기반의 의사결정, 사실에 의한 의사결정, 관리자의 데이터 중시정도,데이터공유 협업
IT인프라 : 운영시스템 데이터통합, EAI,ETL-유통체계, 분석전용서버 스토리지, 빅데이터분석환경, 통계분석환경, 비쥬얼 분석환경



로지스틱 회귀분석은 독립변수의 선형결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계기법이다 검정방법으로는 카이제곱 검정을 사용한다.


주성분분석에서 변수의 중요도 기준이 되는 값은 고윳값이다.



잔차분석에 만족해야하는 가정은 독립성, 등분산성, 정규성이다.

▶433
SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다. 
입력층 : 입력변수의 개수와 동일하게 뉴런수가 존재한다. 
은닉층 : 
경쟁층 : 입력벡터의 특성에 따라 벡터가 한점으로 클러스터링되는 층
출력층 : 



밀도 : 사회관계망 모형에서 연결망 내 전체 구성원들이서로 얼마나 많은 관계를 맺고 있는가
중심성 : 
중심화 : 
구조적 틈새 


안정시계열 :현재의 충격은 미래의 y값에 관한 예측치에 아무런 영향을 미치지 못함

반응형

'ADsP > 오답정리' 카테고리의 다른 글

ADsP 32회 기출  (0) 2022.10.21
ADsP 31회 기출  (0) 2022.10.19
ADsP 29회 기출  (0) 2022.10.19
ADsP 28회 기출  (0) 2022.10.19
ADsP 27회 기출  (0) 2022.10.18
Comments