성장 일기 - AI
EDA (Exploratory Data Analysis, 탐색적 데이터 분석) 본문
❓EDA 정의
데이터를 다양한 각도에서 관찰하고 이해하는 과정
(데이터 분석 전에 그래프 혹은 통계적인 방법을 통해 자료를 보다 직관적으로 바라보는 과정, 데이터의 구성과 분포등을 확인하는 과정)
❓EDA 필요한 이유
데이터의 분포 및 값을 검토함으로 데이터가 표현하는 현상, 문제에 대해 쉽게 이해할 수 있다.
다양한 각도에서 관찰하는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
❓EDA의 방법 (Graphic, Non-Graphic, Univariate, Multi-variate)
EDA의 방법은 크게 Graphic, Non-Graphic으로 2가지로 나눌 수 있으며,
파악하려는 변수(타겟)의 수에 따라 2가지로 나눠진다.
- Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법
- Non-Graphic : 그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics(요약 통계)를 통해 데이터를 확인하는 방법
- Univariate : 파악하려는 변수가 하나일 때
- Multi-variate : 파악하려는 변수가 2가지 이상일 때
이와 같은 방법으로 총 4가지의 분류 케이스가 만들어진다.
- Uni - Non Graphic :
Numerical data(수치형 자료)의 경우 : Center, Spread, Modality, Shape, Outliers 등을 파악할 수 있다.
Categorical data(범주형 자료)의 경우 : count, proportion, percent 등을 파악할 수 있다. - Uni - Graphic :
Histograms : 히스토그램은 연속형 데이터를 이용하는 것으로, central tendency, modality, shape, outliers등을 파악할 수 있다.
Bar plot : 막대 그래프는 범주형 데이터를 이용하는 것이며, 연속형 데이터에 사용하면 전체적인 분포를 빼곡히 파악 가능하다.
Box plot : 상자 그림은 outliers, symmetry를 파악할 수 있다.
QQ plot : 데이터의 분포와 이론상 분포가 잘 일치하는가를 확인 할 수 있는 방법이다. 분포가 일치한다면 일직선을 그리게 된다. - Multi - Non Graphic :
Cross-Tabulation(교차표) : 보통 범주형 데이터에 사용하게 된다.
Cross-Statistics(Correlation 상관계수, Covariance 공분산): 두 변수가 양적 변수인 경우에 두 변수의 선형의 상관성에 대해서 판단할 때 사용하게 된다. - Multi - Graphic :
Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap
Numeric & Numeric : Scatter Plot (* 모양, 색, 크기 등으로 categorical 변수를 산점도에 표시 가능하다. *)
💡내 생각은?
간단하게 요약하자면 재료 파악, 손질 단계라고 할 수 있을 것 같다.
내가 요리를 하기위해 사온 식재료들을 전체적으로 살펴보고 상한게 있는지, 빠진게 있는지, 추가적인 재료가 있는지 등을 파악하는 단계라고 생각하면 좋을 것 같다.
만약 재료 중 상한게 있다면 원하고자 하는 요리(가설)를 성공적으로 만들 수 없을 것이고, 빠진 재료가 있다면 그 역시 원하던 요리를 완성할 수 없을 것이다. 필요한것 이상의 재료가 있다면 생각하던 요리를 업그레이드 한다던지 완전히 새로운 요리를 만들 수 있을 것이다.
EDA과정 역시 데이터의 상태를 확인해서 어떻게 사용할 수 있을지, 내가 세운 가설에 적합하게 사용할 수 있는지, 새로운 가설을 세워야하는지 등을 판단할 수 있는 중요한 단계라고 생각한다.
참고한 글
https://eda-ai-lab.tistory.com/13?category=683835
EDA (Exploratory Data Analysis) 탐색적 데이터 분석
1.EDA란? 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보
eda-ai-lab.tistory.com
https://untitled-memo-2019.tistory.com/1
EDA : Exploratory Data Analysis - Part1 : EDA란?
1. 정의 : 데이터를 수집했을때 이를 다양한 각도에서 관찰하고 이해하는 과정이야. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 보다 직관적으로 바라보는
untitled-memo-2019.tistory.com
https://greenjun.github.io/data%20mining/EDA/
탐색적 데이터 분석(Exploratory Data Analysis)
방문해주셔서 감사합니다. 내용은 지속적으로 업데이트 될 것입니다. 궁금한 내용은 댓글로 남겨주세요.
greenjun.github.io
'공부' 카테고리의 다른 글
카이제곱검정(Chi square test) (0) | 2022.04.14 |
---|---|
Type of Error (1종 오류와 2종 오류) (0) | 2022.04.12 |
귀무가설과 대립가설, T-test (0) | 2022.04.11 |
추리 통계치(Inferential Statistics)와 Sampling 기법 (0) | 2022.04.06 |
Feature Engineering (0) | 2022.03.16 |