본문 바로가기
기초통계학

[통계] 메타코드M_통계 기초 (2) 산포, 왜도, 첨도, 상관

by 모닥불🔥 2024. 1. 28.

지난 글에 이어 메타코드M, 5시간에 끝나는 통계 기초 정리 두 번째 글 시작!

https://mcode.co.kr/mypage/lecture_view?wm_id=1360&lecture_id=15&lecture_num=2&lecture_sub=102

 

오늘 정리할 부분은 3. 통계량(산포, 왜도와 첨도, 상관). 지난 번 글쓸 때 생각보다 글 길이가 길어지기도 하고 정리가 오래 걸려서 미뤘던 부분이다.


3. 통계량

산포의 대표적인 예는 분산이다. 위 공식은 정확히 '표본 분산'을 구하는 식이다. '편차'라는 것은 데이터와 데이터 전체 평균의 차이를 말한다. 이것의 제곱합을 자료수로 나눈 값이 표본 분산이다. 만약 모분산을 구한다면 n으로 나누면 되지만, 표본 데이터는 n-1로 나눈다.

 

n-1로 나누는 이유는 불편추정량 때문이라고 설명했는데 잘 이해가 안된다. 찾아보고 추가해야지!

 

표본표준편차 또한 n-1로 나눠야 하고, 표준편차는 n으로 나눈다. 분산에 루트를 씌운 값이 표준편차다.

 

Q. 왜 분산에 굳이 루트를 씌울까?

A. 분산으로 구한 산포는 원래 데이터 값의 제곱한 큰 수가 되어버리니까 원래 데이터 범위로 맞춰주기 위해 제곱을 루트로 상쇄해줌

 

* 시그마(σ): 모표준편차, 에스(s): 표본표준편차

표본분산을 구하는 공식은 좌변에 있는 공식이지만, 우변 공식으로 변형해서 사용하는 것이 계산하기 훨씬 편리하다.

바로 아래 예시가 있으니 풀어보자.

주어진 값에서 표본평균을 구할 수 있다. 합이 20, n이 10이므로 평균은 2가 된다.

위에서 전개한 공식에 값을 넣어 주면, (75-10*4)/(10-1) 로 계산하면 쉽게 구할 수 있다.


다음은 형태에 따른 통계량 분류이다. 데이터의 중심은 중심통계량, 데이터가 중심을 기준으로 얼마나 퍼져 있는지가 산포, 그리고 데이터 형태가 어떠한가를 볼 차례다.

  • 왜도는 분포의 비대칭도를 나타낸다.
  • 왜도가 음수(-)이면 왼쪽으로 꼬리가 길다. 양수(+)면 오른쪽으로 꼬리가 길다.
  • 왜도가 0이면 평균, 중앙값, 최빈값이 모두 동일하다.
  • 왜도가 양수(+)면 우측꼬리가 긴 그래프 형태이며 최빈값 < 중앙값 < 평균 순으로 크다.
  • 평균은 극단치의 영향을 많이 받기 때문에 기울어진 그래프일 때 꼬리 쪽으로 치우쳐진다.
  • 첨도는 그래프가 뾰족한 정도를 나타내고, 표준정규분포의 첨도는 3이다.
🔥 내가 예전에 공부할 때 평균 중앙값 최빈값 위치가 헷갈려서 사용한 방법은 아래와 같다.

1) 최빈값은 그래프를 그렸을 때 가장 뾰족한 곳. 최빈값 자체가 빈도가 가장 높다는 뜻이니까
2) 평균은 극단치의 영향을 많이 받기 때문에 꼬리가 긴쪽으로 평균이 치우쳐 있다.
3) 중앙값은 무조건 위의 두 값 사이. 즉, 중앙으로 고정한다.
🔥 더 공부하다 보면 나오겠지만, 표준정규분포의 첨도는 3이고 t분포는 덜 뾰족하고(첨도가 3보다 작고) 더 퍼져 있는 형태를 보인다.

피어슨 상관은 확률변수 x, y의 변화가 서로 관계가 있을 때, 통상적으로 선형 관계성을 파악. 비선형적 관계를 구하는 것은 기초 통계량을 넘어선다. 키와 몸무게의 산포를 그리면 키가 큰 사람의 몸무게가 더 무거운 경우가 많기 때문에 위쪽으로 올라가는 선형 관련성이 나타난다(양의 상관). 운동량과 몸무게의 관계라고 하면 음의 상관관계를 보이는 경우가 많겠지.

 

x, y의 선형 관계가 없다고 해서 관련이 없는 것은 아니다. 상관분석을 했을 때는 선형성만 파악하기 때문에 상관이 없더라도 비선형적 관계가 있을 수 있다! (중요) 

 

공분산 공식은 표본분산을 구하는 공식과 모양새가 거의 유사하다. 둘 다 분산이기 때문에! 다만 x, y의 관계이므로 편차제곱합을 구하는 것이 아니라 각각의 편차 곱을 모두 합하고 n-1로 나누어준다.

 

상관계수는 공분산의 값의 범위를 가둔 것

상관을 구하는 공식은 풀어 쓰면 어렵지만, x, y의 공분산을 x의 표준편차와 y의 표준편차를 곱한 값으로 나눈 것 뿐이다.

공분산은 단위가 달라지면 값이 다양하게 나올 수 있는데, 상관계수는 -1부터 1까지의 값을 가지고, 단위가 없다.

절댓값이 1에 가까울수록 연관성이 높다. 0.9와-0.9는 동일하게 강한 상관이지만 방향이 반대인 것! (부호는 방향)

 

스피어만 상관 등 다른 상관, 혹은 비선형적 상관관계를 구하는 통계도 있다.

예제 문제도 하나 있으니 풀어보시길.. 그치만 공식만 알고 있으면 이런 건 시간 문제일 뿐이다.

 

🔥 통계학 강의를 쭉 다시 들으니까 확실히 새록새록 정리가 잘 되는 것 같다. 메타코드에 강의가 새로 올라오면 무료로 며칠간 풀려 있는 경우가 많은데, 이 기간을 활용해서 열심히 들어야겠다. 오늘은 통계량 나머지 부분만 올렸더니 글이 좀 짧다. 다음에 배울 내용은 확률, 확률변수! 다음 글도 기대해주세요 (화르륵📚🙋🏻‍♀️)