통계기반 데이터분석

[ R ] 오분류표

yul_S2 2022. 12. 3. 13:30
반응형

오류분류표

분류 분석 모형의 평가에 일반적으로 사용 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표

  • TP(True Positives): 실제값과 예측치 모두 True 인 빈도
  • TN(True Negatives): 실제값과 예측치 모두 False 인 빈도
  • FP(False Positives): 실제값은 False 이나 True 로 예측한 빈도
  • FN(False Negatives): 실제값은 True 이나 False 로 예측한 빈도

 

오류분류표 활용 모형 평가 지표

(1) 정분류율(accuracy, recognition rate)

전체 관측치중 실제값과 예측치가 일치한 정도

정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표

 

(2) 오분류율(error rate, misclassification rate)

모형이 제대로 예측하지 못한 관측치를 평가하는 지표

전체 관측치 중 실제값과 예측치가 다른 정도를 나타냄

1-accuracy 또는 다음 식으로 평가

 

(3) 범주 불균형 문제

대부분의 분류 분석 대상은 소수 집단에 대한 예측 실패의 비용이 다수 집단에 대한 예측 실패의 비용보다 큼

예) 암환자 분류 모형의 경우 암환자는 소수 집단인데 반해 이를 잘못 예측했을 경우의 비용이 다수 집단인 건강한 환자를 잘못 예측한 경우보다 훨씬 큼

범주 불균형 문제(class imbalance problem)를 가지고 있는 데이터에 대한 분류 분석 모형의 평가지표는 중요한 분류 범주만 다루어야 한다.

 

 

평가지표

  • 민감도(sensitivity) : 실제값이 True 인 관측치 중 예측치가 적중한 정도
  • 특이도(specificity): 실제값이 False 인 관측치중 예측치가 적중한 정도
  • 정확도(exactness): True 로 예측한 관측치 중 실제값이 True 인 정도를 나타냄
  • 재현율(recall): 실제값이 True 인 관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표. 모형의 완전성(completeness)를 평가하는 지표

** 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계

  • F1 지표(F1 score) : 정확도와 재현율의 조화평균. 정확도와 재현율에 같은 가중치를 부여하여 평균
  • Fbeta : beta 는 양수로 beta 값 만큼 정확도에 가중치를 주어 평균
  • (1+β제곱) x 정밀도 x 재현율
          β제곱 x 정밀도 + 재현율

 

반응형