연관토픽
개념 : 정제된 데이터 활용을 위한 전처리 과정
- 레코드 셋, 테이블, 데이터베이스 등에서 왜곡되는 결과를 방지하기 위해 오염되거나 불완전, 부정확한 데이터를 감지하여 데이터 전처리 과정을 통해 관련 없는 부분을 식별하고 교체, 삭제, 수정하는 프로세스
데이터 클렌징의 필요성
필요성 | 설명 |
왜곡된 결과 방지 | 결측치나 이상치를 포함한 잘못된 데이터 셋으로 인해 왜곡된 결과를 도출하는 것을 방지 |
정확한 데이터 제공 | 실시간 데이터에 의존해야 하는 IoT, 인공지능, 머신러닝 분야에 보다 정확한 데이터를 제공 |
데이터 클렌징 프로세스
단계 | 활동 | 설명 |
1. 데이터베이스 정의 | - DB 내 클린데이터 정의 | - 결측치나 이상치를 포함한 잘못된 데이터셋을 이용하여 왜곡된 결과가 도출되는 것을 방지 - 실시간 데이터에 의존해야 하는 IoT, 인공지능 등 분야에 보다 정확한 데이터 제공 |
2. dirty data 원인 파악 | - 품질 저하 원인 파악 - 결측치 및 이상치 식별 |
- 데이터 품질을 저하시키는 dirty data 원인 파악 - 유효하지 않은 데이터, 불완전 데이터, 중복 데이터 입력 식별 |
3. 데이터 품질 우선순위화 | - 클렌징 우선 순위 결정 | - 데이터베이스 정의와 dirty data 원인 파악 후 클렌징을 어디서 부터 할 것인지 우선순위를 결정 - 우선순위를 결정하지 않는 경우 데이터 정리 작업이 낭비되거나 중요 데이터가 재 오염될 가능성 존재 |
4. bad data 유입 차단 | - 잘못된 데이터 입력 중지 | - 데이터 품질 문제와 데이터 정리 프로세스에 대한 매핑 수행 - 잘못된 데이터가 입력되는 원인을 찾아 새로운 규칙을 생성 |
5. bad data 제거 | - 데이터베이스 내부의 결측치 및 이상치 제거 | - Master DB로 들어오는 bad data 제거 후 DB 안에 존재하는 bad data를 제거 - 정제된 데이터만의 운영으로 생산성과 효율성을 증대 |