59doit

ADsP 29회 기출 본문

ADsP/오답정리

ADsP 29회 기출

yul_S2 2022. 10. 19. 09:27
반응형

1. 빅데이터의 활용 사례 중 구글의 실시간 자동 번역시스템을 통한 의사소통의 불편해소는 빅데이터의 어떤 특징을 말하는가?
>> Volume
**
구글의 실시간 자동 번역시스템은 방대한 데이터를 기반으로 정확도 보다는 번역 시스템을 구축하여 서비스를 제공하고 있으므로 빅데이터의 특징 중 volume의 특징을 보인다.
**




8. 사회기반 구조로서의 데이터베이스에 대한 설명 중 부적절한 것은?
X->비실시간 교통정보는 지능형 교통 시스템(ITS)이나 방송매체 등에서 교통 소통을 목적으로 운전자에게 제공되는 정보이다.
>>비실시간X -> 실시간O
O->1990년대 이후 정부부처 중심으로 사회간접자본(SOC)차원에서 EDI활용이 본격화되며 정보망이 구축되기 시작했다
O->교육행정정보서비스(NEIS)은 각 시도교육청 데이터베이스에 학교별 정보를 담아 교육행정 전 업무를 처리하는 시스템이다
O->지리정보 유통센터를 중심으로 지리정보통합관리소를 운영하고 정보를 제공해 지리정보유통망이 가시화되었다.



173p
9. ★다음 분석 성숙도 모델의 설명 중 다른 단계는 무엇인가?
X->분석 CEO조직운영
>> 조직역량부문의 확산단계
O->전문 담당부서에서 수행
O->분석기법 도입
O->관리자가 분석 수행
>> 조직역량부문의 활용단계

**분석성숙도 모델**
조직의 성숙도 평가 도구  : CMMI 모델
성숙도 수준분류 : 도입 활용 확산 최적화 
성숙도 진단분류 : 비즈니스, 조직.역량, IT 

-비즈니스 : 실적분석 통계, 장기보고 수행, 운영데이터 기반 -> 미래결과예측, 시뮬레이션, 운영데이터기반 -> 전사 성과 실시간분석, 프로세스혁신, 분석규칙 관리, 이벤트 관리 -> 외부환경분석활용, 최적화업무적용, 실시간분석, 비즈니스 모델진화
-조직.역량 : 일부부서수행,담담자역량 -> 전문담당부서수행,관리자가수행,분석기법도입 -> 전사모든 부서수행, 분석COE조작운영, 데이터사이언티스트확보 -> 데이터사이언스그룹,경영진분석활용, 전략연계
-IT : 데이터 웨어하우스, 마트 , ETL,EAI -> 실시간대시보드, 통계적분석환경 -> 빅데이터관리환경,시뮬레이션최적화,비주얼분석,분석전용서버 -> 협업환경,프로세스내재화,sandbox,빅데이터분석 
**



16. 데이터분석 기획 시 고려사항으로 적절한것은?
분석을 위한 데이터의 확보가 필수



18. ★상관계수는 두 변수가 함께변화하는 경향이 있는 범위를 측정한다. 아래와 같은 그래프가 나타났을 때, 해당 그래프이 형태에 사용된 상관계수의 종류와 상관계수가 알맞은 것은?
>> 스피어만 상관계수, 1
**
한 변수가 증가하면 다른 변수도 증가하지만 양이 일정하지 않은 관계인 경우, pearson 상관계수는 양수이지만 1보다 작은값이 나오며, spearman상관계수는 양수이며 1이다.
**



19. ★변수선택은 변수들 중에서 필요한 변수들을 선택하여 간단한 모형을 만드는 방법이다. 다음 중 변수 선택 기준으로 사용되는 통계량에 대한 설명으로 부적절한 것은?
X-> 베이즈 정보기준(BIC)은 AIC가 과적합이 되는 경향을 제어하기 위해 사용되는 방법이다
**
AIC가 과적합이 되는 경향을 제어하기 위해 사용되는 방법이 아니라 패널티 기간에 대한 차이로 인하여 다른방법으로 사용되고 있다.
cf) AIC는 모수의 수에 의존하는 문제로 BIC를 쓰는 경우도 있다.
**

O->수정된결정계수는 평균제곱오차가 가장 작은 축소모형을 선택하는 방법으로 모형의 간명성과 설명력을 동시에 고려한 기준이다
O->Mallows Cp 는 예측식이 가진 수행능력을 예측 값의 변이를 기준으로 평가하기 위해 예측값에 대한 MSE를 고려하는 방법이다
O->Akaike 정보통계량은 정확도와 간명성 사이의 상층을 조절하려는 방법으로 비슷한 SSE를 갖는 두 모형에 대해 AIC는 적은 변수를 갖는 모형에 대해 가산점을 부여한다




20.시계열에 관한 설명 중 틀린것은?
X->자료가 추세를 보이는 경우에는 변환을 통해 비정상 시계열을 정상시계열로 바꾸어준다
>> 차분을 통해 비정상시계열을 정상시계열로 바꾸어준다.

O->대부분의 시계열은 비정상자료이다. 그러므로 비정상 자료를 정상성 조건에 만족시켜 정상 시계열로 만든 후 시계열 분석을 한다
O->시계열이 정상 시계열인지 비정상 시계열인지 판단하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 관찰해야한다
O->★시계열자료는 시간의 흐름에 따라 관측되기 때문에 대체로 독립적이지않다


28. 군집 모형 평가 기준 중 하나이며 군집의 밀집정도를 계산하는 방법으로 군집 내의 거리와 군집간의 거리를 기준으로 군집 분할의 성과를 평가하는 것은?
>> 실루엣 계수(Silhouette Coefficient)


29. 10개의 실수 관측값을 수집하여 평균과 표준편차를 구한 결과 1과 2의 값을 얻었다. 모든관측치에 4를 더한 후에 평균과 표준편차를 구하면 그 값들은 얼마가 될까?
>> 평균은 14가 되고 표준편차는 2가된다
**
평균은 더한값만큼 증가, 표준편차는 동일하다
**



31. ▶





34. 목표변수가 연속형인 경우 의사결정 나무 분석을 위해 Regression tree 모형을 만들 때의 분류 기준은?

>> 분산감소량, F-통계량




36.★ 다층 신경망은 여러개의 은닉층을 가질수 있다. 은닉층 노드의 수가 너무 적을 경우 나타나는 특징은?

>> 네트워크가 복잡한 의사결정 경계를 만들 수 없다.
cf) <-> 노드의 수가 많을때 : 네트워크의 일반화가 어렵다
오차역전파 기울기소실 : 은닉층이 깊은 경우, 미분값을 가중치(w)에 곱하는 횟수가 그 깊이와 비례하여 증가하게 되는데, 이 과정에서 가중치는 0에 수렴하여 사라지게 됩니다. 

 

37. 다음 중 가설검정과 관련된 용어에 대한 설명으로 부적절한것은?
X-> 대립가설이 맞는데도 귀무가설이 맞다고 결론내리는 오류의 확률을 검정력이라고한다.
>> 검정력은 대립가설이 사실일때 이를 사실로서 결정할 확률이다.
O-> 현재까지 주장되어 온것이거나 변화나 차이가 없음을 설명하는 가설을 귀무가설이라한다.
O-> 귀무가설을 기각시키는 검정통계량들의 범위를 기각역이라고 한다
O-> 구무가설이 맞다고 정할 때 표본 통계량보다 극단적인 결과가 실제로 관측될 확률을 유의확률(p-value)라고 한다



주관식
2. (   ) 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부다. 기존 금융회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, (   )는 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용한다
 >> 블록체인


5. 데이터 마이닝을 적용한 후 그 결과의 신빙성을 검증하기 위해 데이터를 분할하는데 구축된 모델의 과잉 또는 과소 맞춤 등에 대한 미세조정 절차를 위해 사용되는 데이터
>> 검증용데이터
388P
**
구축용 : 추정용,훈련용데이터라함 데이터마이닝 모델만들때 활용-50%
검증용 : 과대추정 과소추정 미세조정-30%
시험용 : 테스트데이터나 과거 데이터를 활용-20%
**




마스킹 : 읽기 쉬운 데이터를 익명으로 생성하는 기술
가명처리 : 다른 이름으로 변경하는 기술 / 개인식별이 가능한 데이터에 대하여 직접적으로 식별 할 수 없는 다른 값으로 대체
범주화 : 단일 식별 정보를 해당 그룹의 대표 값으로 변환


SCM(공급망관리) : 원자재 조달에서 마지막 단계인 제품 배송에 이르기까지 제품 또는 서비스와 관련된 상품, 데이터 및 재정의 흐름을 관리
ERP(전사적 자원관리) : 조직이 회계, 조달, 프로젝트 관리, 리스크 관리와 규정 준수, 공급망 운영 등 일상적인 비즈니스 활동을 관리하는 데 사용하는 소프트웨어 유형을 의미
KMS(키관리서비스) : 호스트 서버에서 Windows Server 및 기타 Windows 제품의 설정 및 정품 인증에 필요한 제품 키를 가져옴



Accruracy & Precision
Accuracy와 Precision은 Trade-Off관계가 있음
Accuracy는 모델과 실제 값과의 차이를 평가하는 정확도를 의미
Precision은 모델을 지속적으로 반복했을때의 편차의 수준으로써, 일괄적으로 동일한 결과를 제시한다는 의미
Accruracy : 분석의 활용적 측면
Precision : 안정성측면



공분산
공분산이0이면 두 변수간의 상관계수는 0인 비선형관계이다
공분산은 측정단위에 영향을받는다.


상관계수
상관계수는 상관정도의 절대적인 크기를 측정할수있도록 만들어진 값이다.
상관계수 종류에는 피어슨, 스피어만, 켄달 상관계수 등이 있다


이상치 판정하는 방법
3-sigma방법은 평균으로부터 표준편차의 3배가 넘는 범위의데이터를 비정상이라 규정한다
회귀분석 집합 후 잔차분석을 실시하여 이상치를 판정하는 방법이다
통계 모형에 기반한 방법으로는 Grubb's Test, Hotellings T2 test등이 있다.


지니지수
불확실성을 의미하며 같은 특성을 가진 객체들끼리 잘 모여 있는지를 판단
값이 클수록 이질적이며 순수도가 낮다고 할 수 있다
데이터의 통계적 분산 정도를 정량화해서 표현한 값이다
이진분류로 나뉠때 사용된다.


앙상블
: 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류모델을 만드는방법
랜덤포레스트
: 결정트리의 단점인 훈련데이터에 오버피팅 되는 경향을 보완한 방법
배깅
:원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법

390
ROC curve
신호탐지이론에서 적중확률 대 오경보확률의 그래프이다
면적이 **0.5***이하면 랜덤에 가까운 성능이라고 할 수 있다.
-> 면적의 값이 클수록 모형의 성능이 좋다고 평가 : 왼쪽상단에 가깝게 그려질수록 올바르게 예측
AUROC : ROC 곡선 아래의 면적을 의미
TRP(민감도)-y축;세로 / FPR(1-특이도)-x축;가로


lasso회귀모형
절대값의 크기가 클수록 패널티 부여하는 방식
자동으로 변수를 선택
lambda값으로 패널티 정도 조정
L1 패널티 사용

KNN
K값을 구하기 어렵다
단순하고 효율적이다
이상치(노이즈)에 영향을 받지 않는다. (민감하지 않다)
비수치형 데이터에는 사용하기 어렵다
차원의 크기가 크면 계산량이 많아진다.


SQL 함수
WHERE : 데이터를 추출하는 선택 조건식을 지정하는 명령어
ORDER : 
GROUP BY : 
FROM : 테이블 지정해주는 명령어
HAVING : 그룹함수를 적용해서 나온 결과값 중 원하는 조건에 부합하는 자료만 산출 할때 사용 하는 함수

KDD단계
분석목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터셋을 변경하는 프로세스단계 : 데이터 변환



데이터분석을 위한 기업의 성숙도 모델은 수준에 따라
>> 도입단계, 활용단계, 확산단계, 최적화단계로 구분한다
-도입단계 : ETL/EAI, OLAP, 데이터웨어하우스, 데이터마트
-활용단계 : 실시간대시보드, 통계분석환경
-확산단계 : 빅데이터관리환경, 시뮬레이션최적화,비주얼분석,분석전용서버
-최적화단계 : 협업환경, 프로세스내재화, sandbox,빅데이터분석



분석기획을 위해 분석의 what와 분석의 how에 따라서 4가지로 나누어진다
.

3V : volume, variety, velocity
***4V : veracity진실성, validity타당성, volatility휘발성, value
총 7V



1종오류 : 실제로 귀무가설이 맞는데 틀리다고 결론내리는 오류, 실제로 대립가설이 거짓이지만 검정결과 대립가설을 채택하는 오류
2종오류 : 실제로 귀무가설이 옳지않은데 옳다고 결론내리는 오류, 실제로 귀무가설이 거짓이지만 귀무가설을 채택하는 오류
유의수준을 너무 작게하면 귀무가설을 선택할 확률이 커져 대립가설이 옳은데도 불구하고 부정해 버리는 오류를 범할 수 있다.


맵리듀스 : 하둡분산파일시스템에 저장된 대용량의 데이터들을 대상으로 SQL을 이용하여 사용자의 질의를 실시간으로 처리하는 기술이다.



ISP : 기업 공공기관에서는 시스템의 중장기 로드맵을 정의하기위한 ISP를 수행한다. 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내.외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터플랜을 수립하는 절차이다

반응형

'ADsP > 오답정리' 카테고리의 다른 글

ADsP 31회 기출  (0) 2022.10.19
ADsP 30회 기출  (0) 2022.10.19
ADsP 28회 기출  (0) 2022.10.19
ADsP 27회 기출  (0) 2022.10.18
ADsP 26회 기출  (0) 2022.10.18
Comments