일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- BFS
- 외적
- CCW알고리즘
- Algorithm
- DP
- 이진 탐색
- CCW 알고리즘
- 백준
- dijkstra algorithm
- 에라토스테네스
- 위상정렬
- Bitmasking
- binary search
- 너비우선탐색
- 큐
- Python
- 비트연산
- 알고리즘
- BOJ
- 소수
- 투 포인터
- 비트마스킹
- 다익스트라
- 딕셔너리
- ccw
- Two Pointers
- 에라토스테네스의 체
- 재귀
- deque
- recursion
- Today
- Total
꾸꾸리
결측치의 정의 및 유형 본문
1. 결측치의 정의
결측치는 데이터셋에서 값이 누락된 상태를 의미한다. 결측치는 다양한 이유로 발생할 수 있는데, 예를 들면 설문조사에서 응답자가 특정 질문에 답하지 않거나, 센서 장치가 데이터를 수집하지 못하는 경우에 결측치가 발생할 수 있다. 결측치가 존재하는 데이터는 분석 결과에 심각한 왜곡을 초래할 수 있으며, 이러한 결측치를 해결하지 않고 분석을 진행하면 신뢰성이 떨어질 수 있다. 따라서 결측치 처리는 데이터 분석 및 머신러닝 모델 구축의 중요한 전처리 과정이다.
2. 결측치의 유형
결측치는 발생하는 방식에 따라 세 가지 유형으로 분류된다.
1. MCAR (Missing Completely At Random, 완전 무작위 결측)
결측치가 완전히 무작위로 발생하는 경우이다. 즉, 결측치의 발생이 데이터의 다른 변수들과는 전혀 관련이 없을 때이며, 이 경우 결측치가 데이터에 특정한 패턴 없이 발생하기 때문에 이 결측치가 존재하더라도 분석에 큰 영향을 미치지 않는다.
MCAR을 판단하기 위해 리틀의 MCAR 테스트(Little's MCAR test)를 이용할 수 있다. 이 테스트는 결측치가 무작위로 발생했는지를 평가하는데, p-value가 0.05보다 크면 MCAR로 판단할 수 있다.
결측치 처리방법
MCAR의 경우 데이터를 삭제(Listwise or Pairwise Deletion)해도 데이터 분석에 큰 영향을 미치지 않기 때문에, 데이터를 제거하는 것이 일반적이다.
예) 설문조사에서 응답자가 어떠한 질문에 답하지 않은 이유가 나이, 성별 등 다른 요소와 관련이 없을 때
2. MAR (Missing At Random, 무작위 결측)
결측치가 다른 변수와 관련이 있는 경우이다. 즉, 결측치가 다른 특정 변수에 의해 영향을 받지만, 결측값을 가진 해당 변수 자체와는 관련이 없을 때를 의미한다. 이 유형의 경우, 결측이 발생한 변수를 예측할 수 있는 정보를 다른 변수에서 얻을 수 있기 때문에 상대적으로 처리하기 쉽다.
결측치 처리방법
MAR의 경우 결측치가 발생한 변수를 예측할 수 있는 정보를 다른 변수에서 얻을 수 있기 때문에, 회귀 대체법(Regression Imputation)이나 다중 대체법(Multiple Imputatioin)을 사용하는 것이 효과적이다. 회귀 대체법은 결측치가 있는 변수를 다른 변수들로 예측하는 방식이고, 다중 대체법은 여러 번의 대체를 통해 불확실성을 반영하는 방식이다.
예) 나이가 많을수록 소득 정보를 기입하지 않았을 때 (소득 변수와는 무관하지만 나이 변수와는 관련이 있다.)
3. MNAR (Missing Not At Random, 비 무작위 결측)
결측치가 해당 변수 자체와 관련되어 있는 경우이다. 즉, 데이터가 결측된 이유가 다른 변수와는 관계가 없고 그 자체로 결측을 유발하는 경우이다. 이 유형의 결측치는 가장 복잡하며, 정확하게 처리하지 않으면 분석 결과에 큰 편향을 초래할 수 있다.
결측치 처리방법
MNAR의 경우 다른 변수로 예측할 수 없기 때문에 이를 처리하기 위해 도메인 지식이나 외부 정보를 활용해야 하는 경우가 많다. 이 외에도 모델 기반 대체법(Model-based Imputation)을 사용하여 MNAR의 패턴을 학습하는 머신러닝 모델로 결측치를 예측할 수 있다.
예) 소득이 높은 사람들이 소득을 소득 정보를 기입하지 않았을 때 (소득 변수 자체와 관련이 있다.)