[Site Map]  [빅데이터분석목차]

 

연관토픽

  1. [상위] 데이터 전처리(Data Preparation, Data Preprocessing)
  2. [하위] 단순 대치법(Single Imputation)

 

개념

  • 정보의 손실, 연구대상의 탈락, 연구대상의 무응답 등으로 관측되어야 할 값을 얻지 못한 데이터
  • 결측값이 발생시 연구대상자의 수가 축소되어 연구의 신뢰도가 떨어지고 표본으로 모집단을 추정해도 결과에 편향(bias)가 발생하여 데이터 효율성을 저하시킴

 

 

 

결측치 종류

분류 내용
완전 무작위 결측
(MCAR)
  • Missing completely at random.
  • 결측값이 발생한 경우가 다른 값에 영향을 받지 않고 완전히 랜덤하게 발생.
  • 모든 정보가 데이터에 담겨있어 결측값이 분석에 문제가 되지 않는 경우
무작위 결측
(MAR)
  • Missing at random
  • 결측조건이 다른 변수에 따라 조건부로 발생되는 경우. 결측값이 관측된 데이터가 아닌 관측되지 않는 데이터에 따라 결정.
  • 특정 변수의 결측의 여부가 자료 내의 다른 변수와 관련이 있는 경우
  • 예시) 소득수준이 낮은 아이들이 학업성취점수에 응답하지 않음
비무작위 결측
(NMAR)
  • Not missing at random
  • 결측여부가 해당변수의 값에 의해 결정될 때로 결측값이 무작위가 아니라서 주도면밀한 추가 조사가 필요한 경우
  • 예시) 학업성취가 낮은 아이들이 학업성취에 응답하지 않음

 

 

 

결측치 처리방법

  • 결측치는 결측 값 비율에 따라 서로 다른 방법 적용이 필요하며, 특이하게 크거나 혹은 작은 범위 내에서 벗어난 이상값 탐지도 중요
구분 처리방법 설명
제거법
(deletion)
완전제거법
(listwise deletion)
- 불완전한 자료는 모두 무시하고 완전하게 관측된 자료로만 표준적 통 계기법에 의해 분석하는 방법. Complete Case Analysis라고도 함
한쌍제거법
(pairwise deletion)
- 여러 변수 중 결측치 변수만 해당 분석에서 제외하는 방법으로 각 분석단계에서 사용 가능한 자료를 이용. Available Case Analysis
단순대치법
(Single 
Imputation)




평균 대체방법 - 관측 자료의 평균값으로 대체 편향된 추정치 발생시킬 수 있음
연역적 대체방법 - 논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법
일치 대응 대체 방법 - 결측된 정보를 다른 조사자료로부터 얻을 수 있는 경우
- 동일한 조사 단위에 해당하는 다른 외부 자료의 값으로 대체하는 방법
핫덱(Hot-Deck)
대체방법
- 동일한 특성 응답값 중에서 랜덤 추출하여 대체
회귀 대체 방법 - 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석하는 회귀분석
- 회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값으로 사용
다중 대치법
(multiple
Imputation)
다중대치방법
(multiple imputation)
- 단순대치법의 추정량 표준오차의 과소추정이나 계산의 난해성 등을 보완하기 위해 m번의 대치를 동한 m개의 가상적 완전한 자료를 만들어 분석하는 방법. 대치, 분석, 결합의 3단계로 구성 

 

 

 

단순대치법 분류

구분 설명
명시적 모형(explicit modeling) 대치 - 각 변수들이 특정한 확률 분포를 따른다고 가정하고 분포의 모수를 추정하여 대체를 실시하는 방법 
- 가정이 명시적이어서 명시적 대치법이라 함
내재적 모형(implicit modeling) 대치 - 각 변수들이 특정한 확률 분포를 따른다고 가정하는 대신 가능한 한 정확한 값을 가지고 대치하기 위한 알고리즘에 중점을 둔 방식

 

 

 

단순 대치법 vs. 다중 대치법

구분 단순 대치법 다중 대치법
개념 결측값을 가진 자료 분석에 사용하기가 쉽고,  통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완해 주기 위하여 결측값을 그럴듯한 값으로 대체하는 통계적 기법 단순 대치법을 한 번 하지 않고 m 번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
주요 특징 - 단순 대치법 적용을 통해 대체된 자료는 결측값 없이 완전한 형태를 지님  
- 유형에는 완전 분석법, 평균 대치법, 단순 확률 대치법이 있음 
- 다중 대치법은 대치 → 분석 → 결합의 3단계로 구성
- 다중 대치 방법은 원 표본의 결측값을 한번 이상 대치하여 여러 개(D≥2)의 대치된 표본을 구해야 함

 

 

 

모범답안

  1. [답안] 통계적 결측치 처리방안 3개 이상(1교시형)

 

 

 

 

 

+ Recent posts