통계 : 분산 / 표준편차 / 공분산 / 상관계수

17 Feb 2022 in Analysis / Statistics

평균이나 중앙값은 데이터의 중심을 표현하는데 사용되는 값이라면, 분산과 표준편차는 데이터가 얼마나 넓게 퍼져있는지를 나타내는 값

평균과 거리가 먼 점들이 많다면 데이터가 많이 퍼져있다는 것을 알 수 있다.

평균은 각 데이터의 중심이기 때문에, 모든 편차를 다 더하면 0이 되거나, 상쇄될 수 있다.

따라서, 제곱하여 더해준다.

(편차) = (변량) - (평균)

표준편차는 분산의 양의 제곱근으로 정의
편차를 ‘제곱’하면서 값이 크게 증가한다.
예를들어 시험점수 데이터라고 했을 때,
- 편차가 3이라면 우리는 3점차이 나는구나 라고 알 수 있다.
- 이 값을 제곱하면 9가 되는데, 이 숫자가 무엇을 의미하는지 혼란스러울 수 있다.
- 따라서 분산에 루트를 씌우는 것은 제곱하면서 증가했었던 값을 다시 원래 단위로 맞추는 과정이다.