연관토픽
개념
- 수백, 수천 정도의 고차원에서 데이터의 분석, 조합 및 처리시 발생하는 필요 데이터의 품귀 현상
- 논리적이고 명확한 결과를 얻기 위해 필요한 데이터는 계산되는 차원에 비례하며 기하급수적으로 증가
- 변수가 증가할수록 동일한 설명력을 유지하기 위해 필요한 레코드의 수는 기하급수적으로 증가
차원의 저주 특징
- 기하급수 : 선형 비례가 아닌, N 제곱 수 기준으로 비례
- Sparsing : 동일 개수의 데이터의 밀도는 차원증가에 따라 희박해짐
- 고차원 해당 : 수십 정도의 저차원에서는 발생하지 않음
차원의 저주 개념도
- 각 차원에서 동일한 수준의 데이터를 활용하기 위해 필요한 데이터는 2의 거듭제곱 수 만큼 증가
- 차원의 수와 필요 데이터 수와는 승수 비례가 수립
차원의 저주 관계도표
- 차원의 증가에 따라 필요한 데이터의 수는 N 제곱수 기준으로 비례
- 차원의 증가에 따라 필요 레코드 증가에 의해 전체 처리 성능은 저하
- 핵심이 되는 특징 만을 선별하여 문제의 차원을 낮추는 방안으로 극복 가능
차원 축소를 통한 차원의 저주 극복방안
방안 | 설명 |
PCA (Principle Component Analysis) |
|
LDA (Linear Discriminant Analysis) |
|
차원축소 예(PCA)
- 높은 분산확보를 위해서 (a) 분할이 (b) 분할보다 더 좋은 효과