목록통계기반 데이터분석 (38)
59doit

인공신경망(Artificial Neural Network) 인간의 두뇌 신경(뉴런)들이 상호작용하여 경험과 학습을 통해서 패턴을 발견하고 이를 통해서 특정 사건을 일반화하거나 데이터를 분류하는데 이용되는 기계학습방법. 스스로 인지하고 추론하고, 판단하여 사물을 구분하거나 인간의 개입없이 컴퓨터가 특정 상황의 미래를 예측하는데 이용될 수 있는 기계학습 방법 문자, 음성, 이미지 인식, 증권시장 예측, 날씨 예보 등 다양한 분야에서 활용. 활성함수 활성 함수는 망의 총합과 경계값(bias)를 계산하여 출력신호(y)를 결정 일반적으로 활성 함수는 0과 1사이의 확률분포를 갖는 시그모이드 함수(Sigmoid function)를 이용 현재 인공신경망에서는 시그모이드 함수를 이용한다 퍼셉트론(Perceptron) ..

3. 랜덤포레스트(Random Forest) randomforest()함수 formula: y ~ x형식으로 반응변수와 설명변수 식 data: 모델 생성에 사용될 데이터 셋 ntree: 복원 추출하여 생성할 트리 수 지정 mtry: 자식 노드를 분류할 변수 수 지정 na.action: 결측치(NA)를 제거할 함수 지정 importance: 분류모델 생성과정에서 중요 변수 정보 제공 여부 # 1 패키지 설치 및 데이터 셋 가져오기 install.packages("randomForest") library(randomForest) data(iris) # 2 랜덤포레스트 모델 생성 model

앙상블(Ensemble) 의사결정나무의 문제점을 ctree와 다른 방식으로 보완하기 위하여 개발된 방법 주어진 자료로부터 예측 모형을 여러 개 만들고, 이것을 결합하여 최종적인 예측 모형을 만드는 방법 배깅(Breiman, 1996) → 부스팅 개발 → 랜덤포레스트(Random Forest) 앙상블에서 사용되는 기법: 배깅, 부스팅, 랜덤포레스트 1. 배깅(Bagging) - 불안정한 예측모형에서 불안정성을 제거함으로써 예측력을 향상 - 불안정한 예측모형: 데이터의 작은 변화에도 예측 모형이 크게 바뀌는 경우 - Bootstrap AGGregatING의 준말 - 주어진 자료에 대하여 여러 개의 부트스트랩(bootstrap)자료를 만들고, 각 부트스트랩 자료에 예측 모형을 만든 다음, 이것을 결합하여 최종..

2. rpart패키지 이용 분류분석 rpart()함수를 이용한 의사결정 트리 생성 rpart()함수 rpart(반응변수 ~ 설명변수, data) #1 패키지 설치 및 로딩 install.packages("rpart") library(rpart) install.packages("rpart.plot") library(rpart.plot) #2 데이터 로딩 data(iris) #3 rpart()함수를 이용한 분류분석 rpart_model =2.45 100 50 versicolor (0.00000000 0.50000000 0.50000000) # 6) Petal.Width=1..