목록통계기반 데이터분석 (38)
59doit

xgboost xgboost는 부스팅 방식을 기반으로 만들어진 모델 분류하기 어려운 특정 영역에 초점을 두고 정확도를 높이는 알고리즘 높은 정확도가 가장 큰 강점 배깅과 동일하게 복원 추출방식으로 첫 번째 학습 데이터 셋을 생성하는 방법은 동일 두 번째부터는 학습된 트리 모델의 결과를 바탕으로 정확도가 낮은 영역에 높은 가중치를 적용하여 해당 영역을 학습 데이터 셋으로 구성 즉, 기계학습이 안 되는 데이터셋을 집중적으로 학습하여 트리 모델의 정확도를 높이는 방식 X는 컬럼 이름을 가지는 데이터 메트릭스 형식이며, Y는 라벨 벡터, 즉 타겟값을 벡터 형태로 넣는 것이다. R에서 다루는 대부분의 데이터들이 데이터프레임 형식으로 되어있기 때문에 모델을 생성하기 전에 객체를 정의해야한다. xgboost 인풋 정..

(3) 연관규칙 시각화 arules패키지에서 제공되는 내장 데이터 Adult를 이용하여 연관규칙을 생성하고 유사한 연관규칙끼리 네트워크 형태로 시각화 연관분석과 관련된 패키지를 가지고 있음 ex) Adult 데이터 셋 가져오기 data(Adult) Adult # transactions in sparse format with # 48842 transactions (rows) and # 115 items (columns) ex) AdultUCI 데이터 셋 보기 data("AdultUCI") str(AdultUCI) ex) Adult 데이터 셋의 요약통계량 보기 #1 data.frame형식으로 보기 adult {sex=Male} 0.4036485 0.9999493 0.4036690 1.495851 19715 ..
연관분석 연관성 분석 기법은 방대한 데이터 세트에서 객체나 아이템 간의 연관관계를 찾아내는 분 석기법이다. 하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적인 분석 방법 연관성 분석 주요 측도 : 지지도(Support), 신뢰도(Confidence), 향상도(Lift) 지지도(Support) : 전체 데이터 세트에서 해당 아이템 집합이 포함된 비율 신뢰도(Confidence) : {X}→{Y}에서 ‘조건’ X를 포함한 아이템 세트 중에서 X, Y 둘 다 포함된 아이템 세트가 발생한 비율을 말하는데, ‘조건 X’가 발 생했다는 조건하에 규칙의 ‘결과 Y’가 발생할 확률 신뢰도 (X→Y)와 신뢰도 (Y→X)는 서로 같지 않다 향상도(Lift) ..

군집분석 데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로 그룹(군집)을 형성한 후 각 그룹의 성격을 파악하거나 그룹 간의 비교분석을 통해서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석 방법 *유사도: 거리(distance)를 이용하는데 거리의 종류는 다양하지만, 가장 일반적으로 사용하는 것이 유클리디안(Euclidean)거리로 측정한 거리정보를 이용해서 분석대상을 몇 개의 집단으로 분류 군집 분석의 목적: 데이터 셋 전체를 대상으로 서로 유사항 개체 들을 몇 개의 군집으로 세분화하여 대상 집단을 정확하게 이해하고, 효율적으로 활용하기 위함. 군집 분석으로 그룹화된 군집은 변수의 특성이 그룹 내적으로는 동일하고, 외적으로는 이질적인 특성을 갖는다. 군..