59doit

ADsP 28회 기출 본문

ADsP/오답정리

ADsP 28회 기출

yul_S2 2022. 10. 19. 09:27
반응형

1. 빅데이터의 특성에 대한 설명으로 부적절한 것은?
X-> 데이터 양이 늘수록 더 많은 분석을 필요로한다
>>분석X -> 데이터를 처리하는 저장창기가 더 필요하다.

O-> 데이터의 양이 데이터의 가치를 나타내는 것은 아니다
O-> 기업에 더 객관적이고 종합적인 가치를 가져다 줄 수 있는 데이터를 찾아야한다
O-> 빅데이터 분석의 장애요인으로 비용은 아니다


4. 기업들이 퍼스널 빅데이터로 가치를 창출하려고 한다. 퍼스널 빅데이터에는 건강정보, 행태정보, 감정정보 등이 있다. 행태 정보에 속하지 않는것은?
X->연중 정당별 선호도 변화
O-> 주간별 운동량
O-> 하루중 통화빈도
O-> 여름에 판매량이 느는상품
**
행태데이터 : 사람들이 어떤 행등을 왜 하는지 알려주고 분석한 결과를 가리킨다. 예를 들어 고객이 사이트에서 제품을 구매한 경우, 구매했다는 단순한 정보는 행동 데이터에 기반해서 알 수 있지만, 그 제품을 구매한 이유와 구매하지 않았을 때의 이유에 대한 질문의 답을 행태 데이터가 줄 수 있다**


12. 다음 중 성격이 다른 하나는?
X-> CREATE
O-> DELETE
O-> INSERT
O-> SELECT
**
DML : CREATE ALTER DROP TRUNCATE 데이터베이즈 정의 / 데이터를 생성, 수정, 삭제
DDL : SELECT, INSERT DELETE 데이터 조작어 / 입력된 코드를 조회하거나 수정하거나 삭제
**



13. 분석과제 발굴 방식 중 하향식 접근법의 과제 도출 단계
탐색 - 정의 - 해결 - 평가
Problem Discovery - Problem Definition - Solution Search - Feasibility Study



25. 회귀분석에서 다중공선성은 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 현상이다. 
다중공선성에 대한 설명으로 부적절한것은?
X->다중공선성은 회귀계수의 분산을 증가시켜 불확실성을 감소시킨다
O->모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 문제이다
O->높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 따라 달라질 수 있으므로 높은 상관관계가 있는 설명변수는 변환을 한 다음 모형에서 사용해야한다.
O->★R에서 다중공선성을 확인하는 함수로 vif이 있으며, 보통 vif값이 10이상이면 다중공선성을 의심한다.





36. 군집분석은 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법이다.
다음중 군집분석에 대한 설명으로 부적절한 것은?
X-> 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다
>>유도한다.

O-> 군집결과에 대한 안전성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할수있다. 데이터를 두집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안전성이 있다고 할 수 있다.
O->군집의 분리가 논리적인가를 살펴보기 위해서는 군집 간 변동의 크기 차이를 검토한다
O->개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있다.





38. k-means 군집분석은 단순하게 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다. 정규화 방법 중 원데이터의 분포를 유지하면서 정규화가 가능한 방법은 무엇인가?
>> min-max 정규화




주관식
1. 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
>> BI


4. ★★ 소프트웨어와 시스템 공학의 역량 성숙도를 측정하기 위한 모델로 소프트웨어 품질보증과 시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로 1~5단계로 구성된 성숙도 모델은?
>>> 능력 성숙도 통합 모델 CMMI



10. 의사결정나무와 같이 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 모형은?
>> 모수 모형



▶ 빅데이터 시대로 부터 위기 초래한 사례



데이터 베이스 관리시스템DBMS 35p
관계형 : 
객체지향 : 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는 시스템
네트워크 : 레코드 들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프 기반
계층형 : 트리 구조 기반




데이터웨어하우스 : 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스
OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
OLTP : 호스트컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태
ERP : 경영자원을 하나의 통합 시스템으로 구축
BI : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구(의사결정에 활용)
Analytics : 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
▶데이터마트 : 
데이터레이크:많은 정보속에서 의미있는 내용을 찾기위해 방식에 상관없이 데이터를 저장하는 시스템, 대용량의 정형,비정형 데이터 저장, 접근쉬움, 대규모의 저장소
데이터무결성: 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터변경/수정 시 여러가지 제한을 두어 데이터 정확성을 보증하는 것
B2B : 기업과 기업사이의 거래, 비즈니스 모델, 장비,재료,공사입찰
B2C : 기업과 고객사이의 거래, 비즈니스 모델이동통신사, 여행회사, 신용카드회사, 옥션,지마켓


73
제조분야 : ERP, BI, CRM, RTE
금융부문 : EAI, EDW
유통부문 : KMS(지식관리시스템), RFID (주파수 이용하여 ID식별하는 시스템)


분석기획 고려사항 중 장애요소
비용대비 효과의 적정한 비용
유사분석시나리오 및 솔루션을 활용해 분석 모형의 안정적 성능 확보
조직의 역량으로 내재화를 위한 변화관리


163
분석마스터플랜과 ISP의 관계
분석마스터플랜
: 데이터 분석기획의 특성을 고려하여 수행한다.
ISP방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 우선순위를 결정하고 단기 및 중,장기로 나누어 계획을 수립한다.
ISP
: 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획인 ISP를 수행한다
분석마스터 플랜과 달리 시스템 구축 우선순위를 결정하는 등의 중장기 마스터 플랜을 수립한다.
정보기술 또는 정보시스템을 활용하기 위하여 조직 내외부 환경을 준석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석



분석조직의 유형 179P
기능형 : 별도의 분석조직이 없고 해당업무부서에서 분석을 수행하는 방식,전사적 핵심분석 어려움, 과거실적에 국한된 분석 수행 가능성이 높음
분산형 : 분석조직 인력들을 현업부서로 직접배치하여 분석업무수행, 전사차원의 우선순위 수행, 신속한 액션 가능, 부서 분석업무와 역할 분담 명확히 해야함 >> 업무과다, 이원화 가능성있음
집중형 전사 분석업무를 별도의 분석전담 조직에서 담당 , 전략적 중요도에 따라 분석 조직이 우선 순위를 정해서 진행 가능, 현업 업무부서의 분석업무와 이중화/ 이원화 가능성 높음




피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다
일반적으로 인공신경망은 다층퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다.
역전파 알고리즘은 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역전파를 통해 가중치를 구하는데서 시작되었다.
은닉층의 뉴런수와 개수는 신경망 모형에서 자동으로 설정되지 않으므로 직접 설정해야한다.



★분석 지원 인프라 방안 수립 중 협의의 분석 플랫폼
 : 데이터 처리Framwork, 분석엔진, 분석 라이브러리



물건을 배열하거나 카탈로그 및 교차판매 등에 적용하기 적합한 데이터마이닝 기법 : 연관분석



상관분석
: 변수들 간의 연관성을 파악하기 위해 사용하는 분석기법 중 하나로 변수간의 선형관계 정도를 분석하는 통계기법
<-> 
회귀분석
: 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속 변수값을 예측하는 선형모형을 산출하는 방법



잔차분석의 오차 정규성 검정
: Q-Q polt , 잔차의 히스토그램, shapiro-wilk test anderson-darling test 
정상성을 만족하지 않을때는 log, loot를 이용한다



시계열 데이터 분석절차
시간그래프그리기 > 추세와 계절성 제거하기 > 잔차예측하기 > 잔차에 대한 모델 적합하기 > 예측된 잔차에 추세와 계절성 더하여 미래 예측하기



가지치기vs정지규칙
가지치기 : 의사결정나무에서 과대적합되어 현실문제에 적응할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위해 사용되는 방법
정지규칙 : 의사결정나무에서 더 이상 분기가 되지 않고 현재의 마디가 끝마디가 되도록 하는 규칙





k-means 
단순하게 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다.
군집의 개수를 미리 선택해야한다
이상값에 영향을 많이 받는다.



정규화 방법 중 원데이터의 분포를 유지하면서 정규화가 가능한 방법 : min-max 정규화


향상도가 1보다 크면 해당규칙은 결과를 예측하는데 있어 우수하다
관련이 없으면 (=독립적이면) 향상도 는 1이다.


이질적인 모집단을 세분화 하는 기능 : ★군집분석



시계열
추세(Trend) : 데이터가 장기적으로 증가하거나 감소하는 것이며, 추세가 꼭 선형적일 필요는 없다.
순환(Cycle) : 경기변동과 같이 정치, 경제, 사회적 요인에 의한 변화로, 일정 주기가 없으며 장기적인 변화 현상이다.
계절성(Seasoanl) : 주, 월, 분기, 반기 단위 등 특정 시간의 주기로 나타나는 패턴이다.
불규칙요소(Random, Residual) : 설명될 수 없는 요인 또는 돌발적인 요인에 의하여 일어나는 변화로, 예측 불가능한 임이의 변동을 의미한다. ★분해법에서는 원래 데이터에서 추세, 순환, 계절성은 뺀 나머지를 불규칙 요소라 한다.

반응형

'ADsP > 오답정리' 카테고리의 다른 글

ADsP 30회 기출  (0) 2022.10.19
ADsP 29회 기출  (0) 2022.10.19
ADsP 27회 기출  (0) 2022.10.18
ADsP 26회 기출  (0) 2022.10.18
ADsP 모의고사 2회  (0) 2022.10.18
Comments