연관토픽
개념
- 정보의 손실, 연구대상의 탈락, 연구대상의 무응답 등으로 관측되어야 할 값을 얻지 못한 데이터
- 결측값이 발생시 연구대상자의 수가 축소되어 연구의 신뢰도가 떨어지고 표본으로 모집단을 추정해도 결과에 편향(bias)가 발생하여 데이터 효율성을 저하시킴
결측치 종류
분류 | 내용 |
완전 무작위 결측 (MCAR) |
|
무작위 결측 (MAR) |
|
비무작위 결측 (NMAR) |
|
결측치 처리방법
- 결측치는 결측 값 비율에 따라 서로 다른 방법 적용이 필요하며, 특이하게 크거나 혹은 작은 범위 내에서 벗어난 이상값 탐지도 중요
구분 | 처리방법 | 설명 |
제거법 (deletion) |
완전제거법 (listwise deletion) |
- 불완전한 자료는 모두 무시하고 완전하게 관측된 자료로만 표준적 통 계기법에 의해 분석하는 방법. Complete Case Analysis라고도 함 |
한쌍제거법 (pairwise deletion) |
- 여러 변수 중 결측치 변수만 해당 분석에서 제외하는 방법으로 각 분석단계에서 사용 가능한 자료를 이용. Available Case Analysis | |
단순대치법 (Single Imputation) |
평균 대체방법 | - 관측 자료의 평균값으로 대체 편향된 추정치 발생시킬 수 있음 |
연역적 대체방법 | - 논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법 | |
일치 대응 대체 방법 | - 결측된 정보를 다른 조사자료로부터 얻을 수 있는 경우 - 동일한 조사 단위에 해당하는 다른 외부 자료의 값으로 대체하는 방법 |
|
핫덱(Hot-Deck) 대체방법 |
- 동일한 특성 응답값 중에서 랜덤 추출하여 대체 | |
회귀 대체 방법 | - 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석하는 회귀분석 - 회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값으로 사용 |
|
다중 대치법 (multiple Imputation) |
다중대치방법 (multiple imputation) |
- 단순대치법의 추정량 표준오차의 과소추정이나 계산의 난해성 등을 보완하기 위해 m번의 대치를 동한 m개의 가상적 완전한 자료를 만들어 분석하는 방법. 대치, 분석, 결합의 3단계로 구성 |
단순대치법 분류
구분 | 설명 |
명시적 모형(explicit modeling) 대치 | - 각 변수들이 특정한 확률 분포를 따른다고 가정하고 분포의 모수를 추정하여 대체를 실시하는 방법 - 가정이 명시적이어서 명시적 대치법이라 함 |
내재적 모형(implicit modeling) 대치 | - 각 변수들이 특정한 확률 분포를 따른다고 가정하는 대신 가능한 한 정확한 값을 가지고 대치하기 위한 알고리즘에 중점을 둔 방식 |
단순 대치법 vs. 다중 대치법
구분 | 단순 대치법 | 다중 대치법 |
개념 | 결측값을 가진 자료 분석에 사용하기가 쉽고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완해 주기 위하여 결측값을 그럴듯한 값으로 대체하는 통계적 기법 | 단순 대치법을 한 번 하지 않고 m 번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법 |
주요 특징 | - 단순 대치법 적용을 통해 대체된 자료는 결측값 없이 완전한 형태를 지님 - 유형에는 완전 분석법, 평균 대치법, 단순 확률 대치법이 있음 |
- 다중 대치법은 대치 → 분석 → 결합의 3단계로 구성 - 다중 대치 방법은 원 표본의 결측값을 한번 이상 대치하여 여러 개(D≥2)의 대치된 표본을 구해야 함 |
모범답안