[Site Map]  [빅데이터분석목차]

 

연관토픽

  1. [연관] 주성분 분석(PCA, Principal Component Analysis)

 

개념

  • 수백, 수천 정도의 고차원에서 데이터의 분석, 조합 및 처리시 발생하는 필요 데이터의 품귀 현상
  • 논리적이고 명확한 결과를 얻기 위해 필요한 데이터는 계산되는 차원에 비례하며 기하급수적으로 증가
  • 변수가 증가할수록 동일한 설명력을 유지하기 위해 필요한 레코드의 수는 기하급수적으로 증가

 

 

 

차원의 저주 특징

  • 기하급수 : 선형 비례가 아닌, N 제곱 수 기준으로 비례
  • Sparsing : 동일 개수의 데이터의 밀도는 차원증가에 따라 희박해짐
  • 고차원 해당 : 수십 정도의 저차원에서는 발생하지 않음

 

 

 

차원의 저주 개념도

  • 각 차원에서 동일한 수준의 데이터를 활용하기 위해 필요한 데이터는 2의 거듭제곱 수 만큼 증가
  • 차원의 수와 필요 데이터 수와는 승수 비례가 수립

 

 

 

차원의 저주 관계도표

  • 차원의 증가에 따라 필요한 데이터의 수는 N 제곱수 기준으로 비례
  • 차원의 증가에 따라 필요 레코드 증가에 의해 전체 처리 성능은 저하
  • 핵심이 되는 특징 만을 선별하여 문제의 차원을 낮추는 방안으로 극복 가능

 

 

 

차원 축소를 통한 차원의 저주 극복방안

방안 설명
PCA
(Principle Component Analysis)
  • 주성분 분석
  • 고차원에서 분산(흩어짐)을 가능하면 많이 유지하며 차원을 축소
  • 다차원 특징 벡터의 정보를 유지하며 저차원으로 차원을 축소하는 다변량 데이터 처리법
  • 데이터의 최적 표현의 견지에서 데이터 축소
LDA
(Linear Discriminant Analysis)
  • 선형판별 분석
  • 데이터의 최적 분류의 견지에서 데이터 축소

 

 

 

차원축소 예(PCA)

  • 높은 분산확보를 위해서 (a) 분할이 (b) 분할보다 더 좋은 효과

 

 

 

 

 

[Top]

+ Recent posts