성장 일기 - AI
카이제곱검정(Chi square test) 본문
❓Chi square test
주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설검정.
예상되는빈도 : 전체 데이터 수 / 데이터의 종류
X^2 = ∑(관측값 - 기대값)^2 / 기댓값
범주형 자료로 구성된 데이터 분석에 이용한다. (Categorical Data)
- Goodness of fit test(적합도 검정) : 관찰된 비율 값이 기대값과 같은지 조사하는 검정 (어떤 모집단의 표본이 그 모집단을 대표하는지 검정)
- Test of homogeneity (동질성 검정) : 두 집단의 분포가 동일한지 검정
- Test for independence (독립성 검정) : Contingency table(분할표)에 있는 두 개 이상의 변수가 서로 독립인지 검정
❓p-value
귀무가설이 맞다는 전제 하에, 통계값이 실제로 관측된 값 (샘플의 통계치) 이상일 확률을 의미
관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1사이의 수치로 표현한 것
p-value가 클수록 귀무가설을 지지하고 대립가설을 기각할 가능성이 커지고, 작을수록 귀무가설을 기각하고 대립가설을 지지할 가능성이 커진다.
❓Chi Square Statistic
카이제곱검정으로 p-value를 얻게 되는데 p-value를 얻기 위해서는 2가지 정보가 필요하다
- 자유도(Degrees of freedom) : n -1 (n:카테고리개수)
- Alpha level : 0.05 or 0.01 (연구자에 의해 결정)
'공부' 카테고리의 다른 글
변수의 종류와 의미 (0) | 2022.04.14 |
---|---|
Type of Error (1종 오류와 2종 오류) (0) | 2022.04.12 |
귀무가설과 대립가설, T-test (0) | 2022.04.11 |
추리 통계치(Inferential Statistics)와 Sampling 기법 (0) | 2022.04.06 |
EDA (Exploratory Data Analysis, 탐색적 데이터 분석) (0) | 2022.04.05 |