본문 바로가기
빅데이터분석

[powerBI] 메타코드 강의후기_(3) 기초통계 개념

by 모닥불🔥 2024. 10. 6.

https://www.metacodes.co.kr/edu/read2.nx?EP_IDX=14157&EM_IDX=13981&M2_IDX=31635


메타코드에 새로 올라온 powerBI 강의! (이미지를 클릭하면 수강신청 링크로 이동한다.)

무료 수강 기간이 끝나서 아쉽지만 50% 세일 중이라고 한다. wow

 

지난 시간에 탐색적 데이터분석을 완료했다면, 이번엔 간단한 가설 검정 단계이다.

강의에서는 가설을 세우는 과정을 자세히 설명해 주셔서 좋았다. :)


3. 여러가지 통계 분석 기법

통계적 기법을 활용한 EDA(탐색적 데이터 분석) 라고 소개를 하셨는데, 내 생각에는 가설을 설정하고 검정하는 통계분석에 가깝지 않을까 생각한다.

 

먼저, 통계적 기법의 다양한 종류를 소개해 주셨다.

익숙한 T-test, ANOVA, 상관, 카이스퀘어 등도 있고 KOLMOGOROV-SMIRNOV TEST라는 것도 있었다.

뭔가 어디서 한 번 들어본 것 같은데 많이 쓴 적은 없는 ...느낌?

 

(1) T-Test

T-Test야 뭐, 간단하게 말하면 두 집단의 평균을 비교하는 분석이고 대응표본 t, 독립표본 t가 있는데 여기서 설명하신 건 독립표본에 가까운 것 같다. 전-후 차이보단 두 그룹의 차이를 분석하는 거라...!

 

(2) one way ANOVA

주로 one way, two way 이런 식으로 ANOVA를 많이 사용하는데, ANOVA 또한 집단의 평균을 비교하는 분석방법이다. 다만 집단이 3개 이상일 때 주로 사용되고, 변수의 개수에 따라 one way, two way 로 나뉜다. 가설은 적어도 한 개 집단의 평균이 다른 그룹 평균과 다를 것이다(H1). 라고 설정한다.

 

(3) Turkey's HSD

ANOVA로 세 개 이상의 집단에 적어도 하나의 평균값이 다르단 걸 밝혀내면 이후에는 Turkey 같은 사후분석을 하게 된다. 단순히 T test를 사용하면 되는 거 아닌가 싶겠지만, T-test의 신뢰도가 95%라고 했을 때 여러 번 곱해질수록 신뢰도가 낮아진다. 0.95*0.95*0.95 = 0.86으로 집단이 3개라 2쌍씩 3번만 비교해도 신뢰할 수 있는 확률이 후두둑 떨어진다.

그래서 사후분석 방법을 굳이 사용하게 되는 것! 사후분석 역시 집단의 평균 차이를 비교한다.

 

(4) Chi-square

카이스퀘어는 변수의 연관성을 검정한다고 설명을 하셨다. 사실 카이제곱검정은 카이제곱 독립성, 적합성, 동질성 검정이라는 세 종류가 있다. 각 분석이 조금 다른 방식으로 진행되기 때문에 카이제곱검정을 마주쳤을 땐 구분을 잘 하는 게 중요하다.

이 강의에서는 독립성 검정에 대해 소개하고 있고, 독립성 검정은 기대빈도와 실제빈도를 비교해 변수간의 연관성(연관성이 없다면 독립성)을 조사한다.

 

앞서 낯설게 느꼈던 KOLMOGOROV-SMIRNOV TEST는 두 분포의 차이를 비교하는 것이다.

 

4. 가설 설정의 3원칙

강사님께서 설정해 주신 가설 설정의 3원칙은 아래와 같다.

* 가설 설정의 3원칙
1. 다양한 변수 간의 관계를 살펴볼 것
2. 독립적이되, 하나의 스토리를 이룰 것
3. 구체적일 것

 

(1) 다양한 변수 간의 관계를 살필 것

데이터를 처음 딱 받으면 다양한 컬럼들이 있다. 컬럼명=피처=변수이기 때문에 쭉 살펴 보면서 연관성 있는 변수들끼리 먼저 묶어보는 것이 좋다. 예를 들면 나이나 성별 직업 같은 건 개인정보라는 카테고리 안에 묶일 수 있을 것이다. 잘 묶으면 나중에 가설을 설정하기에도 수월하다고 하셨다.

 

(2) 독립적이되, 하나의 스토리를 이룰 것

보험으로 예를 들었을 때, 보험의 종류는 크게 All perils(종합 보험 같은 것), Collision, Liability 라는 세 종류로 나뉜다. 그러면 각 보험 종류 내에서 다양한 변수들(차량 정보, 피보험자에 대한 정보 등등)끼리의 관계를 독립적으로도 살펴볼 수 있으면서, 보험 상품 별 피보험자 특징과 같이, 동일한 수준에서의 비교도 가능해야 한다. 크게 봤을 때 스토리로 엮일 수 있는 틀을 짜려면 도메인 지식이 필수적이다.

관심이 있는 분야로 도메인을 설정하는 게 정말 정말 중요할 것 같다.

(

(3) 구체적일 것

가설은 실제 비즈니스 인사이트를 이끌어낼 만큼 구체적이어야 한다고 하셨다. 실무진들이 적용할 수 있을 정도의 의미 있는 가설과 검정이어야 할 것 같다.

 

 

가설을 설정하고 분석하는 구체적인 과정은 다음 글에서 계속....to be continued....🔥

 

* 강의는 메타코드 사이트에서 들을 수 있다. 나는 메타코드 서포터즈로서 강의를 제공받아 글을 작성하고 있다. 물론 이번 powerBI 강의는 무료로 풀렸을 때 들은 거라 강의 쿠폰을 사용한 건 아니지만 ^^;... 뭐 어쨌든. 홈페이지 이미지를 클릭하면 홈페이지로 이동한다.