본문 바로가기
기초통계학

[통계] 메타코드M_통계 기초 (1) 데이터의 종류, 중심 통계량

by 모닥불🔥 2024. 1. 21.

이번에는 메타코드M 통계 기초 5시간 강의 내용을 공부하는 김에 정리해 볼 것이다. 기록은 증거다. 나는 약하게..(?) 저장 강박을 가지고 있어서 온갖 것을 메모하고 저장하는 습관이 있다. 그런데 당시에 노트 필기를 예쁘게 해도, 필요할 때 바로바로 열어볼 수가 없다.

 

통계 공부도 그렇다. 대학 전공과목으로, 대학원 시절 스터디로, 사회조사분석사 2급 취득할 때, 빅분기 필기 볼 때... 총 5-6번은 기초 통계학 공부를 했다. 그런데 증거로 보여주기가 쉽지 않다. 이를 해결하기 위해, 지금부터 접근하기 쉬운 '블로그'에 열심히 공부 기록을 남기려고 한다. 복습 겸, 다시 공부하면 되지 뭐! 🔥화르륵

 

일단 아래 강의로 결정! 메타코드M 5시간에 끝나는 통계 기초

 

오늘 정리할 부분은 1. 통계 2. 데이터의 종류 3. 통계량(중심통계량, 산포, 왜도와 첨도, 상관) 1강이라 기초적인 내용이지만, 내가 직접 데이터를 분석하면서 느꼈던 바를 코멘트로 달면서 공부하려고 한다. 캡처한 자료들은 모두 메타코드m에서 다운로드 받은 강의 자료이다.


1. 통계

 

🔥 SPSS로 통계 분석을 해본 사람으로 말하자면, 여기에서 설계나 기획은 '어떤 통계치가 필요하지?'를 생각하는 단계이다. 경험상 이 설계는 데이터 수집 전에 되어 있어야 한다. 예를 들어, 신약을 개발해서 약의 효과를 테스트 하려고 할 때 동일한 대상의 먹기 전, 후 데이터를 수집해야 하지 쌩뚱맞게 A그룹과 B그룹을 비교하면 안 되기 때문이다. 집단간 비교와 집단내 비교는 형태부터 다르기 때문에 애초에 설계가 되어야 한다.

요약은 보통 기술통계량이라고 부르는 평균, 중앙값 등을 말하는 것 같다. 분석 전에 기술통계량을 뽑아서 극단치가 있는지, 결측값이 있는지 등을 보기도 하고 그래프를 그려서 대략적으로 데이터가 어떻게 생겼는지 보기도 한다. 
추론 통계는 개인적으로 '우리가 가장 원하는 것'이 아닐까 하는데, 결국 우리가 비즈니스 장면에서 과거(데이터)를 기록하는 것은 늘 미래를 예측하고 대비하기 위함인 경우이기 때문이다.

우리는 모수를 다 조사할 수 없다. 조사하고 싶은 대상이 전세계 고등학생이면 무슨 수로 측정할 것인가. 그래서 표본을 추출한다. 우리나라 고등학생 1000명은 충분히 조사할 수 있다. 대신 표본은 모집단을 적절히 대표할 수 있는, 모집단의 일부여야 한다. 대학생 1000명을 조사하곤 고등학생에 대한 이야기를 할 수 없고, 자사고 고등학생만 조사해선 고등학생 전체를 대표할 수 없다.

🔥 여기서 표집(sampling) 이야기가 나오면 더 좋았을 것 같은데, 표본 추출에서 편향(bias)을 막기 위해, 혹은 다른 목적으로 다양한 표본추출방법을 사용한다. 가장 대표적인 것은 무작위 추출법(뽑힐 확률이 동일하도록 무작위로 뽑는 방법)이고 그 외에도 층화추출, 집락추출 등 방법이 있다. (사회조사분석사에서 굉장히 중요하게 다루는 부분)

2. 데이터의 종류

자료의 종류는 범주형 자료와 양적 자료로 나눌 수 있다. 명목형 자료는 한자 그대로 이름 '명'이다. 이름을 붙인 것 뿐이고 수치적 의미는 없다. 예를 들어 혈액형이나 성별 같은 게 있는데, 여성이 남성보다 높다 낮다 등의 비교가 불가능하다.

순서형 자료는 상대적 크기 비교가 가능하지만 그 사이의 간격을 정확히 측정할 수 없다. 예를 들어 우리반 1등과 2등 3등이 얼마나 시험을 잘 쳤는지는 알 수 없지만 상대적으로 비교는 할 수 있다는 뜻. 양적 자료는 자료 자체가 숫자로 표현되어 는 자료이다. 셀 수 있으면 이산형, 셀 수 없으면 연속형 자료이다.

🔥 시간은 참 애매한 게 시간 자체는 셀 수 없는 게 확실하지만 1시간, 2시간 이런 식으로 세기도 하기 때문이다. 그래서 내가 이해하기로, 도구를 사용해서 계측하는 건 셀 수 없다(키나 몸무게, 시간 같은 것). 

3. 통계량

통계량은 앞서 표본에 대한 수치적 요약이라고 배웠다. 중심통계량과 산포, 왜도 첨도와 같은 형태 등이 있다.

 

🔥 중심통계량에는 평균(mean), 중앙값(median), 최빈값(mode)이 있다. 이들을 대푯값이라고도 부른다. 왜냐하면 표본을 대표해 주는 자료니까. 우리반은 어떤 반인가? '공부 잘하는 반'이다. 물론 우리 반에도 공부를 잘하는 학생과 못하는 학생이 있겠지만 평균을 내보니 다른 반에 비해 높더라는 식이다.

평균은 우리가 잘 알고 있듯이, 전체 자료의 합을 개수로 나눈 값으로 극단치의 영향을 많이 받는다. 가장 대표적인 예시가 평균 연봉 아닐까? 상위 1-2%의 연봉이 너무 높아서 평균을 끌어 올리는 ㅠ... 우리는 평균 이하라며 슬퍼할 필요가 없다. 보통 정부에서 정하는 기준은 '중앙값'으로 설정되어 있다. 중앙값은 줄 세워서 가장 가운데 있는 숫자를 뜻해서 극단치의 영향을 받지 않는다.

이 강의에서는 최빈값, 중앙값, 평균 순으로 설명하고 있는데 아마 가중평균과 기하평균을 같이 설명하기 위함인 것 같다.

최빈값은 가장 많이 나온 값. 보통 범주형 자료에서 사용한다. 빈도를 세었을 때 가장 높은 값으로 같은 순위가 나올 수 있다. A 2개 B 2개 C 1개일 수 있는 것. 중앙값은 크기 순으로 정렬했을 때 자료의 가운데에 위치하는 값이다. (짝수인 경우에는 나누기 2하면 된다.) 최빈값과 중앙값은 모두 극단치의 영향을 안 받는다.

🔥 최빈값을 잘 안쓴다고 생각하는데, 세 가지 통계량은 모두 잘 기억해야 한다. 빅데이터분석기사 실기를 준비할 때 범주형 자료는 분류 모델을, 수치형 자료는 회귀 모델을 썼는데 전처리 단계에서 분류 모델은 최빈값으로 데이터를 확인했다.

산술평균은 우리가 보통 알고 있는 평균이다. 가중평균은 자료의 중요도에 따라 가중치(weignt)를 달리 하는데, weight 조정하는 건 인공지능, 머신러닝 분야에서 많이 듣는다. 산술평균과 똑같이 다 더하고 개수로 나누는데, 더할 때 가중치를 곱해주는 것만 차이가 있다.

기하평균은 성장률, 증가율 등 '비율'에 대한 평균을 구할 때 사용한다. 비율이므로 당연히 음수는 존재하지 않는다.

'Π' 기호는 'Σ'의 곱셈 버전이다. 시그마(Σ)와 파이(Π )를 본따서 만든 기호지만, 썸(sum), 프로덕트(product)라고 읽는다. 즉, Π는 i=1부터 n까지 xi(통계량) 값을 모두 곱한다는 뜻이다. 프로덕트는 아래처럼 풀어 쓸 수 있다.

출처: 데이터사이언스 스쿨_1장 수열과 집합의 합과 곱

* 예시로 나온 일일 주가 상승률: 1%, 3%, 5%, 10%

- 산술평균을 계산하기 위해 다 더해서 나누면 19/4 = 4.75가 나온다. (4*5=20이니까 거의 5에 가까운 값)

- 기하평균으로 계산하면 4 루트 1*3*5*10 = 3.499..로 3.5 정도의 값이 나온다. 꽤 차이를 보임..

🔥 실제로 주가상승률 계산 등에서 기하평균을 많이 사용한다. 복리 수익이 이 기하평균으로 나오는 거라고 하니까 감사한...? 평균이다. ㅎㅎ (주가상승률과 기하평균을 설명글: https://blog.naver.com/0176110001/221358152289)
🔥 강사님이 어제 100% 상승, 오늘 100% 하락 이야기를 하셨는데, 그러면 본전치는 게 아니라 원금이 전부 없어진다. 게다가 양수만 가능하다고 하셨기 때문에 음수는 기하평균을 구할 수조차 없음

1번 예제. 각 반은 30명, 50명으로 다른 수를 가지기 때문에, 단순히 70+80 나누기 2 하면(산술평균) 안되고, (30*70 + 50*80)/80 으로 가중 평균을 구해야 한다. 6100/80 = 76.25 라는 답이 나온다.

 

2번 예제. 국어 3학점, 영어 2학점, 컴퓨터 4학점, 과학 2학점이니까 가중평균을 써서, (3*4.5 + 2*3.0 + 4*2.5 + 2*3.0)/(3+2+4+2) 이렇게 계산하면 된다.

예제 3을 같이 풀어보자. 기하 평균 공식이 어렵다고 생각하고 있는데, 바로 계산하는 예제 문제를 실어준 것이 좋았다. 물가상승률은 비율에 관한 것이므로 기하 평균을 사용하면 된다.

 

예제 3번. 5개의 수치가 있으니까 5√(1.03*1.05*1.06*1.02*1.04) -1을 구한다. 0.039904 여기에서 곱하기 100 해서 %로 맞춰주면 3.99%

 

예제 4는 순서대로 나열한 뒤 중간에 있는 값을 찾으면 답은 5

 

🔥 뒤에 산포, 왜도, 첨도, 상관에 대한 내용이 있는데, 글이 너무 길어지기도 하고 지쳐서 내일 마저 쓸 예정이다. 나의 공부 기록용 블로그이지만 통계 지식이 필요한 누군가에게는 도움이 되기를 바란다.