앤스컴 콰르텟(Anscombe's quartet)
- 위 4개의 데이터 집합은 앤스컴 콰르텟(Anscombe's quartet)이라고 불린다.
- 이를 통해 무작정 선형 회귀를 사용하면 안된다는 것을 보여준다.
- X1, X2, X3, X4 모두 선형 회귀를 사용하고있지만, X1을 제외한 X2, X3, X4에서는 선형 회귀를 사용하면 안된다.
- 선형 회귀를 사용하기 위한 가정은 아래와 같다.
선형 회귀를 위한 가정
선형성(Linearity, Linear relationship between Y and each X)
- 설명
- 독립 변수(X)와 종속 변수(y) 사이에는 선형적인 관계가 존재해야 한다.
- 즉, X가 증가할수록 Y도 일정한 비율로 증가/감소해야 한다.
- 위반 시 문제점
- 모델이 데이터의 실제 패턴을 잘못 설명하게 된다.
- 예측 정확도가 하락한다.
- 회귀 계수 해석이 왜곡된다.
- 확인 방법
- 산점도 시각화
- 잔차 vs 예측값 그래프
등분산성(Homoscedasticity, Equal variance)
- 설명
- 오차(잔차)의 분산이 모든 독립 변수(X) 값에서 일정해야 한다.
- 즉, 예측값의 크기와 관계없이 오차가 고르게 퍼져 있어야 한다.
- 위반 시 문제점
- 예측 신뢰구간이 부정확하게 설정된다.
- 특정 구간에서 모델의 예측력이 떨어진다.
- 회귀 계수의 표준 오차가 왜곡되어 통계적 검정이 부정확해진다.
- 확인 방법
- 잔차 vs 예측값 플롯
- Breusch-Pagan 테스트 등 통계적 검정
다변량 정규성(Multivariate Normality, Normality of error distribution)
- 설명
- 잔차는 정규분포를 따라야 한다.
- 위반 시 문제점
- 회귀 계수의 p-value, t-test 등이 부정확하게 계산된다.
- 신뢰구간, 예측 구간 해석이 부정확해진다.
- 확인 방법
- Q-Q plot
- 잔차 히스토그램
- Shapiro-Wilk 테스트, Kolmogorov-Smirnov 테스트
독립성(Independence)
- 설명
- 관측치들 간에는 서로 독립적이어야 하며, 오차들 간에도 자기상관(autocorrelation)이 없어야 한다.
- 위반 시 문제점
- 특히 시계열 데이터에서 예측 오차가 연속적으로 관련되어 있는 경우, 모델이 잘못된 계수를 학습할 수 있다.
- 오차의 패턴이 생겨 신뢰성이 저하된다.
- 확인 방법
- 잔차 플롯
- Durbin-Watson 통계량
다중공선성 없음(Lack of Multicollinearity)
- 설명
- 독립 변수들 사이에 높은 상관관계가 없어야 한다.
- 위반 시 문제점
- 회귀 계수의 해석이 불안정해진다.
- 모델이 어떤 변수가 영향을 주는지 구분하지 못한다.
- 예측 성능은 유지되더라도 해석이 왜곡될 수 있다.
- 확인 방법
- VIF(Variance Inflation Factor)가 5 이상이면 문제 가능하다.
- 상관행렬(correlation matrix)
[추가적인 사항] 이상치 확인(Outlier Check)
- 설명
- 이상치는 모델의 직선에 과도한 영향을 줄 수 있기때문에 꼭 확인해야 한다.
- 정식적인 가정은 아니지만 추가 확인하면 좋다.
- 위반 시 문제점
- 회귀선이 이상치에 끌려가서 전체 예측이 왜곡된다.
- 계수의 값이 비정상적으로 커질 수 있다.
- 확인 방법
- 산점도 확인
- Leverage, Cook's Distance, Mahalanobis Distance 등 이상치 검정 지표
'Machine Learning' 카테고리의 다른 글
다중 선형 회귀 모델 생성 방법 (0) | 2025.07.15 |
---|---|
단순 선형 회귀(Simple Linear Regression) (0) | 2025.07.02 |
데이터 전처리(Data Preprocessing) (0) | 2025.06.29 |
머신러닝 기초 개념 (1) | 2025.06.29 |