연관토픽
기출문제
회차 | 문제 |
관리130-3 |
1. 머신 러닝(Machine Learning)에서 활용되는 의사결정나무(Decision Tree) 모델을 설명하시오.
|
개념
- 의사결정규칙 과정을 나무 구조로 단계별 도표화하여 분류 또는 예측을 수행하는 통계 분석 기법
- 정량적 분리기준에 따라 분할(split)와 가지치기(pruning)을 통해 대상이 되는 집단을 몇 개의 소집단으로 구분하는 분류 및 예측 기법
- 각 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
- 관찰된 데이터로부터 분할기준 속성을 판별하고, 분할기준 속성에 따라 최대 purity를 달성하며, 트리 형태로 모델링한 분류/예측기법
- 의사결정나무는 분류(Classification)와 회귀(Regression) 모두 가능
의사결정나무 목적
- 새로운 데이터에 대한 분류(Classification)하거나, 해당 범주의 값을 예측(Prediction)
- 데이터로부터 tree 구조의 일반화된 지식을 추출
의사결정나무 형성과정
단계 | 설명 |
의사결정나무 분할/성장 | 분석의 목적과 자료구조에 따라서 적절한 분리기준(split criterion)과 정지규칙(stopping rule)을 지정하여 의사결정나무를 얻음 |
가지치기(pruning) | 오류율을 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거 |
타당성 평가 | 이익도표(gain chart)나 위험도표(risk chart) 또는 검증용 데이터(test data)에 의한 교차 타당성 등을 이용하여 의사결정나무 평가 |
해석 및 예측 | 의사결정나무를 해석하고 예측모형 설정 |
의사결정나무 개념도
의사결정나무 기법의 처리절차
처리절차 | 핵심요소 | 설명 |
기준설정 | 분리기준(split criterion), 정지규칙 지정 |
|
Recursie Partitioning | 지니계수, 엔트로피 계산 |
|
가지치기 | 부적절 규칙의 가지 제거 |
|
타당성 평가 | Cross Validation |
|
해석 및 예측 | 모형 결정 |
|
- Split 수가 증가할수록 training set의 에러율은 감소하지만, validation set은 특정 지점부터 에러율이 증가하므로, 해당 지점에서 split 수를 결정해야 함
의사결정나무 사용 알고리즘
의사결정나무 분리기준(splitting criterion)
(1) 이산형 목표변수
기준값 | 분리기준 |
카이제곱 통계량 p 값 | p값이 가장 작은 예측변수와 그 때의 최적분리에 의해 자식마디를 형성 |
지니 지수 | 지니 지수를 감소시켜주는 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성 |
엔트로피 지수 | 엔트로피 지수가 가장 작은 예측변수와 이 때의 최적분리에 의해 자식마디를 형성 |
(2) 연속형 목표변수
기준값 | 분리기준 |
분산분석에서 F통계량 | p 값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성 |
분산의 감소량 | 분산의 감소량을 최대화하는 기준의 최적분리에 의해 자식마디를 형성 |
의사결정나무 알고리즘별 분리기준
알고리즘 | 분류나무 (반응변수 : 범주형) | 회귀나무 (반응변수 : 수치형) |
CART | 지니지수 3 (이분형 분류) |
분산의 감소량 |
CHAID | 카이제곱 통계량의 p-값 (다중 분류) |
분산분석 F 통계량의 p-값 |
C5.0 | 엔트로피지수 (다중 분류) |
의사결정나무 용어
의사결정나무 분석 수행절차
단계 | 설명 |
1 | 분석 목적과 데이터 형태에 따라 적절한 분리기준과 정지규칙 4 지정 5 |
2 | 의미 없는 분할이 계속되지 않도록 가지치기 6 |
의사결정나무의 장단점
장단점 | 설명 |
장점 |
|
단점 |
|
합격답안
- CART : Classification And Regression Tree [본문으로]
- CHAID : CHi-squared Automatic Interaction Detection [본문으로]
- 지니지수 : 불순도를 측정하는 지수 [본문으로]
- 분리기준 : 설명 변수를 이용하여 반응변수의 분포를 분류할 때 사용되는 기준(반응 변수의 형태에 따라 다름) [본문으로]
- 정지규칙 : 더 이상 분리가 일어나지 않고, 현재의 마디가 끝 마디가 되도록 지정하는 규칙 [본문으로]
- 가지치기 : 불필요한 가지를 잘라내는 작업. 지나치게 많은 가지를 가지는 의사결정나무는 새로운 데이터를 적용할 때 과적합이 발생하므로 적절하지 않은 마디를 제거하여 적당한 크기의 나무 구조를 최종 모형으로 선택하는 것이 바람직함 [본문으로]