59doit
ADsP 33회 기출 본문
6. 다음중 빅데이터 위기 요인과 해결 방안을 잘못 연결된 것을 고르시오
가. 사생활침해->동의제를 책임제로 전환
나. 책임훼손의 원칙->알고르즘 허용
다. 데이터의 오용 -> 결과기반 책임 원칙
>> 나,다
**
책임훼손의 원칙 -> 기존의 책임원칙을 강화
데이터오용 -> 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입필요성 제기
나,다 의 해결방안이 서로 바뀜
**
9. 조직의 의사결정을 위한 데이터 집합체로 데이터 통합, 시계열성, 비소멸성 등의 특징을 가지고 있는 것은?
데이터 웨어하우스
10. 다양한 유형의 데이터를 다루는 통계학과 마이닝을 넘어서는 학문, 데이터공학, 수학, 통계학, 컴퓨터 공학 등 해당 분야의 전문 지식을 종합한 학문
데이터 사이언스
**
데이터로부터 의미 있는 정보를 추출해내는 학문으로 정형,반정형,비정형의 다양한 유형의 데이터를 대상으로 하며, 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적개념
**
19. 반복을 통하여 점증적으로 개발하는 방법으로써 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.
>> 나선형 모델
31. 피자와 햄버거의 거래 관계를 나타낸 표
pizza/Hamburgers는 피자/햄버거를 포함한 거래수 의미, (pizza)/(Hamburgers)는 피자/햄버거를 포함하지 않는 거래 수 의미한다. 표에서 피자구매에 대한 설명으로 적절한것은?
O->향상도가 1보다 크므로 햄버거와 피자는 연관성이 매우 높다
>> 햄버거&피자 / 햄버거*피자
햄버거 & 피자 = 2000/5000 =0.4
햄버거 = 2500/5000 = 0.5
피자 = 3000/5000 = 0.6
∴ 0.4/0.5*0.6 = 1.333
=> 향상도1보다 크면 양의 상관관계 연관성이 높다 할 수 있다
cf) 향상도1이면 연관성 없다.
X-> 지지도가 0.6으로 전체 구매 중 햄버거와 같이 구매되는 경향이 높다
>> 지지도 0.4 ( 피자&햄버거 : 2000 / 전체 : 50000)
X-> 정확도가 0.8로 햄버거와 피자의 구매 관련성은 높다.
>> 정확도는 구할수없음
X->연관규칙 중 "햄버거->피자" 보다 "피자->햄버거"의 신뢰도가 더 높다
>> "햄버거->피자" 신뢰도 ( 햄버거&피자 2000 / 햄버거 2500 ) = 0.8
>> "피자->햄버거" 신뢰도 ( 햄버거&피자 2000 / 피자 3000 ) = 약0.6
33.★★★ 정규분포 신뢰수준95%일때에 대한 설명으로 적절하지 않은것은?
X-> 신뢰수준95% 의미는 추정값이 신뢰구간에 존재할 확률이 95%라 할 수있다.
O-> 표본크기가 커질수록 신뢰구간이 좁아진다. 이는 정보가 많을수록 추정량이 더 정밀하다는 것을 의미한다.
O-> 99% 신뢰수준에 대한 신뢰구간이 95%신뢰수준에 대한 신뢰구간보다 길다
O-> 신뢰수준은 모수값이 정해져 있을 때 다수 신뢰구간 중 모수값을 포함하는 신뢰구간이 존재할 확률을 말한다.
37. ★★★양성나온 사람 중에 실제 질병이 있는 사람의 확률은 무엇인가?
양성인사람은 0.2, 실제 질병이 있는 사람은 0.1, 검사 결과 양성인 사람은 0.9이다
40. 주성분 분석에서 주성분 수를 선택할 때 고려하지 않아도 되는 것은?
X->개별 고윳값의 분해 가능 여부
O->Scree Plot
O->성분들이 설명하는 분산의 비율
O->고윳값(Eigenvalue)
**
주성분 결정 기준
▪ 성분들이 설명하는 분산의 비율 : 누적 분산 비율이 70~90% 사이가 되는 주성분 개수 선택
▪ 고윳값(Eigenvalue) : 분산의 크기를 나타내며, 고윳값이 1보다 큰 주성분만 사용함
▪ Scree Plot : 고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌 (1보다 큰 값 사용)
**
47. 신경망 모형에서 표준화 지수함수로 불리며, 출력 값 z가 여러 개로 주어지고, 목표치가 다 범주인 경우 각 범주에 속할 사후확률을 제공하여 출력 노드에 주로 사용되는 함수는?
>>softmax
50. 로지스틱 회귀모형에서 exp(x1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다성공(Y=1)의 ( )가 몇 배 증가 하는지를 나타낸다. ( )에 들어가는 용어는?
>>Odds (오즈)
NoSQL : MongoDB, Apache Hbase, Redis
RDBMS : MySQL(오픈소스 RDBMS), Oracle Database(상용 RDBMS)
★빅데이터의 특징
데이터 수가 증가함에 따라 몇개의 오류데이터가 대세에 영향을 주지 못하는 경향이 증가하고 있다.
사전처리의 대표적인 예는 표준화된 문서 포맷을 들 수 있다
사전->사후
표본->전수
질->양
인과->상관
상향식접근방식의 특징
디자인싱킹의 발산단계에 해당한다
데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다
인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정
K-means 군집의 특징
사전에 주어진 목적이 없으므로 결과해석이 어렵다(->비지도학습이므로)
잡음이나 이상값에 영향을 많이 받는다(->거리기반)
★볼록한 형태가 아닌 군집(=ex 초승달모양)이 존재하면 성능이 떨어진다
한번 군집이 형성되면 군집내 객체들은 다른 군집으로 이동한다.
★연관규칙★
-단점
분석품목수가 증가하면 분석 계산이 기하급수적으로 증가한다
너무 세분화된 품목을 가지고 연관규측을 찾으려면 의미없는 분석결과가 도출된다
상대적 거래량이 적으면 규칙 발견 시 제외되기 쉽다
장점
조건반응(if-then)으로 표현되는 연관 분석의 결과를 이해하기 쉽다
= 품목간에 구체적으로 어떠한 영향을 주는지 해석하기 쉽다
강력한 비목적성 분석기법이다
분석계산이 간편하다
스피어만상관계수 - 서열, 비선형적관계 / 연속형외에 이산형도 가능함
****원시데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함
피어슨상관계수 - 등간,비율
SOM
전방패스 사용 -> 속도빠름
2차운그리드(격자)로 경쟁층 구성
경쟁학습 실시
입력변수와 위치관계를 그대로 보존 -> 실제 데이터가 유사하면 지도상 가깝게 표현됨
입력변수의 정보와 그들의 관계가 지도상에 그대로 나타남
고차원데이터를 저차원의 지도형태로 형상화(시각화-이해쉬움)
vs
신경망
역전파알고리즘
연속적인 layer로 구성
에러수정을 학습
회귀모델에서 변수선택을 위한 판단기준에는 Cp, AIC, BIC 등이 있으며 값이 작을수록 좋다.
주성분분석에서
분산비율은 Proportion of Variance
누적비율은 Cumulative Proportion
상
표본편의 : 표본추출방법에서 기인하는 오차를 의미, 확률화를 통해 최소화하거나 없앨 수 있다.
표본오차: 표본크기 증가시키고 표본선택방법을 엄격히 하여 줄일 수 있다.
비표본오차:표본크기가 증가함에 따라 증가한다.
'ADsP > 오답정리' 카테고리의 다른 글
ADsP 34회 기출 (0) | 2022.10.21 |
---|---|
ADsP 32회 기출 (0) | 2022.10.21 |
ADsP 31회 기출 (0) | 2022.10.19 |
ADsP 30회 기출 (0) | 2022.10.19 |
ADsP 29회 기출 (0) | 2022.10.19 |