목록통계기반 데이터분석 (38)
59doit

군집분석 데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로 그룹(군집)을 형성한 후 각 그룹의 성격을 파악하거나 그룹 간의 비교분석을 통해서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석 방법 *유사도: 거리(distance)를 이용하는데 거리의 종류는 다양하지만, 가장 일반적으로 사용하는 것이 유클리디안(Euclidean)거리로 측정한 거리정보를 이용해서 분석대상을 몇 개의 집단으로 분류 군집 분석의 목적: 데이터 셋 전체를 대상으로 서로 유사항 개체 들을 몇 개의 군집으로 세분화하여 대상 집단을 정확하게 이해하고, 효율적으로 활용하기 위함. 군집 분석으로 그룹화된 군집은 변수의 특성이 그룹 내적으로는 동일하고, 외적으로는 이질적인 특성을 갖는다. 군..
오류분류표 분류 분석 모형의 평가에 일반적으로 사용 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표 TP(True Positives): 실제값과 예측치 모두 True 인 빈도 TN(True Negatives): 실제값과 예측치 모두 False 인 빈도 FP(False Positives): 실제값은 False 이나 True 로 예측한 빈도 FN(False Negatives): 실제값은 True 이나 False 로 예측한 빈도 오류분류표 활용 모형 평가 지표 (1) 정분류율(accuracy, recognition rate) 전체 관측치중 실제값과 예측치가 일치한 정도 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표 (2) 오분류율(error rate, miscla..
주성분 분석 0에 가까운 분산을 가지는 변수 제거 분산이 0에 가까운 변수는 제거해도 큰 영향이 없음. nearZeroVar()함수 'saveMetrics=FALSE'속성: 예측변수의 컬럼위치에 해당하는 정수 벡터 'saveMetrics=TRUE'속성: 컬럼을 가지는 데이터프레임 freqRatio: 가장 큰 공통값 대비 두번째 큰 공통값의 빈도의 비율 percentUnique: 데이터 전체로 부터 고유 데이터의 비율 zeroVar: 예측변수가 오직 한개의 특이값을 갖는지 여부에 대한 논리 벡터 nzv: 예측변수가 0에 가까운 분산예측 변수인지 여부에 대한 논리 벡터 ex) #1 패키지 설치 및 iris 데이터 불러오기 install.packages("caret") library(caret) install..

다차원척도법 여러 대상의 특징 사이 관계에 대한 수치적 자료를 이용하여 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법 2차원 또는 3차원에서의 특정 위치에 관측치를 배치해서 보기 쉽게 척도화 즉, 항목 사이 거리를 기준으로 하는 자료를 이용하여 항목들의 상대적인 위치를 찾고 거리가 가까운 개체들끼리 Group 화 하여 분류할 수 있다. 다차원 척도법 적용 절차 1) 자료 수집: 특성을 측정 2) 유사성, 비유사성 측정: 개체 사이의 거리 측정 3) 공간에서 개체 사이 거리 표현 4) 개체의 상호 위치에 따른 관계가 개체들 사이 비유사성에 적합여부 결정 다차원 척도법의 종류 (1) 계량적(전통적) 다차원 척도법(Classical MDS) 숫자 데이터로만 구성. stats패키지의 cmdscale()함..