[Site Map]  [빅데이터분석목차]

 

연관토픽

  1. [상위] 데이터 전처리(Data Preparation)

 

개념 : 정제된 데이터 활용을 위한 전처리 과정

  • 레코드 셋, 테이블, 데이터베이스 등에서 왜곡되는 결과를 방지하기 위해 오염되거나 불완전, 부정확한 데이터를 감지하여 데이터 전처리 과정을 통해 관련 없는 부분을 식별하고 교체, 삭제, 수정하는 프로세스

 

 

 

데이터 클렌징의 필요성

필요성 설명
왜곡된 결과 방지 결측치나 이상치를 포함한 잘못된 데이터 셋으로 인해 왜곡된 결과를 도출하는 것을 방지
정확한 데이터 제공 실시간 데이터에 의존해야 하는 IoT, 인공지능, 머신러닝 분야에 보다 정확한 데이터를 제공

 

 

 

데이터 클렌징 프로세스

단계 활동 설명
1. 데이터베이스 정의 - DB 내 클린데이터 정의 - 결측치나 이상치를 포함한 잘못된 데이터셋을 이용하여 왜곡된 결과가 도출되는 것을 방지
- 실시간 데이터에 의존해야 하는 IoT, 인공지능 등 분야에 보다 정확한 데이터 제공
2. dirty data 원인 파악 - 품질 저하 원인 파악
- 결측치 및 이상치 식별
- 데이터 품질을 저하시키는 dirty data 원인 파악
- 유효하지 않은 데이터, 불완전 데이터, 중복 데이터 입력 식별
3. 데이터 품질 우선순위화 - 클렌징 우선 순위 결정 - 데이터베이스 정의와 dirty data 원인 파악 후 클렌징을 어디서 부터 할 것인지 우선순위를 결정
- 우선순위를 결정하지 않는 경우 데이터 정리 작업이 낭비되거나 중요 데이터가 재 오염될 가능성 존재
4. bad data 유입 차단 - 잘못된 데이터 입력 중지 - 데이터 품질 문제와 데이터 정리 프로세스에 대한 매핑 수행
- 잘못된 데이터가 입력되는 원인을 찾아 새로운 규칙을 생성
5. bad data 제거 - 데이터베이스 내부의 결측치 및 이상치 제거 - Master DB로 들어오는 bad data 제거 후 DB 안에 존재하는 bad data를 제거  
- 정제된 데이터만의 운영으로 생산성과 효율성을 증대

 

+ Recent posts