1. 회귀(Regression)에 대하여
1-1 회귀분석(Regression Analysis)
- 통계학에서 전통적으로 많이 사용되던 분석 방법으로, 관찰된 여러 데이터를 기반으로 각 연속형 변수 간의 관계를 모델링하고 이에 대한 적합도를 측정하는 분석 방법
- 독립변수(independent variable)와 종속변수(dependent variable) 사이의 상호 관련성을 규명
- 부모의 키와 자식의 키 사이의 관계
- 자동차의 스펙을 이용한 가격 예측
- 1인당 국민 총소득과 배기가스 배출량 사이의 관계 예측
1-2 선형 회귀분석의 4가지 기본가정
(1) 선형성
- 선형성은 "선형" 회귀분석에서 중요한 기본가정으로, 당연히 "비선형" 회귀분석에서는 해당하지 않음
- 선형성이란, 예측하고자 하는 종속변수 y와 독립변수 x 간에 선형성을 만족하는 특성을 의미
- 본인이 가진 변수 중 일부가 선형성을 만족하지 않는다면,
- 다른 새로운 변수를 추가해보거나,
- 로그, 지수, 루트 등 변수 변환을 취해보는 것,
- 아예 선형성을 만족하지 않는 변수를 제거하는 것,
- 선형 회귀모델을 만들고 변수 선택법을 통과시키는 것
- 등 여러 가지 방법이 있지만, 4번째 방법이 가장 유용하게 쓰임
(2) 독립성
- 독립성은 "다중" 회귀분석에서 중요한 기본가정으로, 당연히 "단순" 회귀분석에서는 해당하지 않음
- 독립성이란, 독립변수 x 간에 상관관계가 없이 독립성을 만족하는 특성을 의미(다중 회귀분석은 x변수가 2개 이상인 회귀분석)
- 다중공선성, 즉 서로 상관관계가 있다면 이를 제거
- 제거하는 방법은 다중공선성을 일으키는 변수를 제거하거나, 이것들을 모아서 다른 변수로 치환
(3) 등분산성
- 등분산성이란 분산이 같다는 것이고, 분산이 같다는 것은 특정한 패턴 없이 고르게 분포했다는 의미