59doit

데이터에듀 ADsP 03.데이터분석 본문

ADsP/오답정리

데이터에듀 ADsP 03.데이터분석

yul_S2 2022. 10. 17. 23:40
반응형

<5절>
2. 반응 변수가 범주형인 경우 예측 모형의 주목적으로 가장 적절한 것은?
>>분류

3. 데이터 마이닝의 대표적인 기능 중 이질적인 모집단을 세분화 하는 기능으로 적절한 것은?
>> 군집분석

4. 한 보험회사에서는 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품종류 등의 정보를 사용하여 예측하려고 한다. 적절한 분석 기법은?
>> 랜덤포레스트 ** 예측 **
**


**






14. 데이터마이닝의 목적 중 사람, 상품에 관한 이해를 증가시키기 위한 것으로 데이터의 특징 및 의미를 표현 설명하는 기능을 무엇이라고 하는가?
>> 기술
**
분류(classfication) : 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것. 예) 의사결정나무
추정(Estimation) : 주어진 입력 데이터를 사용하여 알려지지 않는 결과의 값을 추정. 예) 신경망 모형
예측(Prediction) : 미래의 양상 또는 값을 추정 + 분류, 추정의 의미 포함함. 예) 의사결정나무, 신경망, 장바구니 분석 등
연관분석(Association) : '함께 팔리는 물건'과 같이 아이템의 연관성을 파악. 예) 장바구니 분석
군집(Clustering) : 분류와 달리 미리 정의된 기준이나 예시에 의해서가 아니라 데이터 자체의 유사성 및 이질성에 의해 군집화됨.
기술(Description) : 데이터가 암시하는 바에 대해 설명이 가능해야 함.
**


18. ★이익도표(Lift)를 작성함에 있어 평가도구 중 %Captured Response를 표현한 계산식으로 올바른것은?
해당집단에서 목표변수의 특정범주 빈도/전체목표변수의 특정범주 비도 x100


21. 앙상블 모형이란 주어진 자료로부터 여러개의 예측 모형을 만든 후 이러한 예측 모형들을 결합하여 하나의 최종 예측 모형을 만드는 방법을 말한다. 다음 중 앙상블 모형에 대한 설명으로 적절하지 않은것은?
X-> 부스팅은 배깅의 과정과 유사하여 재표본 과정에서 각 자료에 동일한 확률을 부여하여 여러모형을 만들어 결합하는 방법이다.
O-> 배깅은 주어진 자료에서 여러개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 모형을 만드는 방법이다.
O-> 랜덤 포레스트는 의사결정나무모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형 결합해 최종 학습기를 만드는방법이다.
O-> 앙상블모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법이다.


28.R에서 인공신경망의 학습 및 추론을 위해 대표적으로 사용되는 함수는 neuralnet()이다. 실행 결과로 도출되는 일반화 가중치에 대한 설명으로 적절한것은?
>> 로지스틱 회귀모형에서의 회귀 계수와 유사하게 해석된다.


30. ★신경망 모형은 자신이 가진 데이터로부터 반복적인 학습과정을 거처 패턴을 찾아내고 이를 일반화하는 예측방법이다. 신경망 모형에 대한 설명으로 부적절한 것은?
X-> 은닉층의 뉴련수와 개수는 신경만 모형에서 자동으로 설정된다.
O-> 피드포워드 신경망은 정보가 정방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다.
O-> 일반적으로 인공신경망은 다층퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다
O-> 역전파 알고리즘은 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역전파를 통해 가중치를 구하는데서 시작되었다.


31. 신경망 모형은 동물의 뇌신경계를 모방하여 분류를 위해 만들어진 모형이다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억 특성을 닮았고 특정 사건으로부터 일반화하는 능력도 갖고있다. 신경망 모형에 대한 설명으로 부적절한것은?
X-> 신경망 모형에서 뉴련의 주요 기능은 입력과 입력강도의 가중합을 구한 다음 활성화 함수에 의해 출력을 내보내는 것이다. 따라서 입력 변수의 속성에 따라 활성화 함수를 선택하는 방법이 달라지게된다.
O-> 은닉층의 뉴런 수와 개수를 정하는 것은 신경만을 설계하는 사람의 직관과 경험에 의존한다. 뉴런수가 너무 많으면 과적합이 발생하고 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.
O-> 역전파 알고리즘은 신경망 모형의 목적함수를 최적화하기 위해 사용된다. 연결강도를 갱신하기 위해서 예측된 결과와 실제값의 차이인 에러를 통해 가중치를 조정하는 방법이다.
O-> 신경망 모형은 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용하며, 잡음에 대해서도 민감하게 반응하지 않는다는 장점을 가지고 잇다.


33. 로지스틱 회귀모형은 독립변수와 종속변수 사이의 관계를 모형으로서 종속변수가 범주형(y=0 또는 y=1) 값을 갖는 경우에 사용하는 방법이다. 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
X-> 종속변수y대신 로짓이라 불리는 상수를 사용하여 로짓을 설명변수들의 선형함수로 모형화하기 때문에 모형을 로지스틱 회귀모형이라고 한다.
O-> 데이터에 대해 선형회귀모형을 적용하는 것이 기술적으로 가능하지만, 선형회귀의 문제점은 0이하의 값이나 1이상의 값을 예측값으로 줄 수 있다는 것이며 따라서 이를 확률값으로 직접 해석할 수 있다.
O-> 로지스틱 회귀모형은 클래스가 알려진 데이터에서 설명변수들의 관점에서 각 클래스내의 관측치들에 대한 유사성을 찾는데 사용할 수 있다.
O-> Odds란 클래스 0에 속할 확률(1-p)이 클래스 1에 속할 확률 p의 비로 나타낸다.
** 성공률/실패율 = P/(1-P) **



36.계층적 군집분석을 위해 거리 계산을 수행 할 때 사용하는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?
X-> cosine
O-> minkowski
O-> binary
O-> canberra



45. 거리를 이용하여 데이터 간 유사도를 측정할 수 있는 척도는 데이터의 속성과 구조에 따라 적합한 것을 사용해야 한다. 유사도 측도에 대한 설명으로 부적절한것은?
X-> 마할로노비스 거리는 변수의 표준편차를 고려한 거리 측도나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용을 검토해야한다.
**
마할로노비스 거리는 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리이다. 
두 벡터사이의 거리를 산포를 의미하는 표본 공분산으로 나눠주어야 하며 그룹에 대한 사전지식 없이는 표본공분산을 계산 할 수 없다.
**
O-> 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다. 공통으로 점수를 매긴 항목의 거리를 통해 판단하는 측도이다.
O-> 맨하튼 거리는 각 방향 직각의 이동 거리 합으로 계산된다.
O-> 표준화 거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리이다. 표준화를 하게 되면 척도의 차이, 분산의 차이로 인해 왜곡을 피할 수 있다.



46. 군집분석은 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한대상 끼리 묶는 방법이다. 군집분석에 대한 설명으로 부적절한것은?
X-> 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다.
O-> 군집결과에 대한 안전성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각 할 수 있다. 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안전성이 잇다고 할 수 있다
O->군집의 분리가 논리적인가를 살펴보기 위해서는 군집간변동의 크기 차이를 검토한다.
O->개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있다.


49. 군집분석에는 관측값들이 얼마나 유사한지 유사하지 않은지 측정할 수 있는 측도가 필요하다. 유사도 측도에 대한 설명으로 부적절한것은?
X-> 피어슨 상관계수는 각 객체의 데이터 집합이 직선으로 표현되는 정도를 측정한다.
**
피어슨 상관계수는 유사도측도로 사용하지 않음
**
O-> 유클리드 거리는 공통으로 점수를 매긴 항목의 크기를 통해 판단하는 측도이다
O-> 코사인 거리는 두 단위 벡터의 내적을 이용하여 다누이 벡터의 내각의 크기로 유사도를 측정한다
O-> 자카드는 Boolean 속성으로 이루어진 두 객체 가의 유사도 측정에 사용된다.


51. 비계층적 군집방법의 기법인 K-means Clustering의 경우 이상갑에 민감하여 군집경계의 설정이 어렵다는 단점이 존재한다. 이러한 단점을 극복하기 위해 등장한 비계층적 군집방법은?
>> PAM(Partitioning Around Medoids)



53. k평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야한다. 군집수를 정하는 데 활용할 수 있는 그래프로 적절한것은?
>> 집단 내 제곱합 그래프
**
-ROC그래프
-덴드로그램
-향상도 곡선 : 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌느지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단
**



60. R에서 연관성 분석을 위해 apriori 함수를 활용하여 연관 규칙을 생성하였다. 생성된 연관 규칙을 보기 위해 사용되는 함수는?
>> inspect( )


67. 신경망 모형에서 아래의 식으로 계산되는 함수로서 표준화 지수 함수로 불리며, 출력값 z가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는?
>>soft max 함수

68. 두개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두개체의 벡터 내적을 기반하는 유사성 측도는?
>> 코사인 유사도


71. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?
>> 실루엣


72. SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토 타입 벡터를 선택하는데 이 선택된 프로토타입 벡터를 나타내는 용어는?
>> BMU






11. 불순도 측도인 엔트로피 개념은 정보이론의 개념을 기반으로 하며, 그 의미는 여러 가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화 해서 표현한 것이다.

반응형

'ADsP > 오답정리' 카테고리의 다른 글

ADsP 모의고사 2회  (0) 2022.10.18
ADsP 모의고사 1회  (0) 2022.10.18
데이터 에듀 ADsP 03.데이터분석  (0) 2022.10.17
데이터 에듀 ADsP 02.데이터분석기획  (1) 2022.10.15
데이터 에듀 ADsP 01.데이터의 이해  (0) 2022.10.14
Comments