목록빅데이터 분석가 과정 (7)
성장 일기 - AI

❓기술통계분석 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=boinsystem&logNo=220805551090 기술통계분석(descriptives) 기술통계분석(descriptives) 1.목적 요약통계량(평균, 표준편차)을 계산하거나 변수값을 z점수로 바꾼다 기... blog.naver.com 💡Excel을 이용해 기술통계분석하기 먼저 기술통계분석을 하기 위해서는 몇가지 사전작업이 필요하다. 먼저 엑셀 옵션에 들어가서 [추가 기능] 탭으로 들어가 [Excel 추가 기능]을 선택하고 [이동]을 눌러준다. 이렇게 추가 기능 창이 나올텐데 여기서 [분석 도구 팩]을 선택하고 확인을 눌러준다. 그리고 리본 메뉴 [데이터]에 가보면 ..

💡 빈도표 만들기 이러한 데이터에서 이렇게 빈도와 비율을 알 수 있는 빈도표를 만드는 작업이다. 먼저 파워쿼리 편집기 창에서 빈도를 구하고자 하는 컬럼을 선택 [우클릭]-[그룹화]를 선택해준다. 그럼 이러한 그룹화 창이 나오는데 새 열의 이름을 적어주고 연산은 빈도를 구하는 것이므로 [행 카운트]로 해두고 확인을 누른다. 정상적으로 수행되었다면 구하고자 하는 컬럼이 몇 행이 있는지 카운트 되어 빈도 컬럼에 나타나있을 것이다. 이 빈도 정보를 가지고 비율 컬럼까지 만들어보도록 하겠다. [열 추가] - [사용자 지정 열]을 선택하여 편집창을 띄우자. 수식에 [빈도] / List.Sum(#"그룹화된 행 수"[빈도])를 입력해주면 된다. 빈도 / 빈도들의 합을 한 것인데 #"그룹화된 행 수"[빈도]는 오른쪽 적..

SQL에서 사용하는 Join,Union 기능을 엑셀에서도 클릭 몇 번으로 간편하게 사용할 수 있다. ❓Join의 종류 왼쪽 외부(Left Join) 오른쪽 외부(Right Join) 완전 외부(Outer Join) 내부(Inner Join) 왼쪽 앤티 오른쪽 앤티 엑셀에서 사용할 수 있는 Join기능은 위 처럼 6가지가 있고 이미지로 직관적으로 이해가 될 것이라 생각한다. 혹시 그래도 헷갈린다면 https://hongong.hanbit.co.kr/sql-%EA%B8%B0%EB%B3%B8-%EB%AC%B8%EB%B2%95-joininner-outer-cross-self-join/ 를 참고해 공부하면 좋을 것 같다. SQL 기본 문법: JOIN(INNER, OUTER, CROSS, SELF JOIN) 조인은..

💡CrossTable 데이터를 표 개체로 구조화 하는 법 CrossTable은 가로 세로 양방향으로 정보를 담고 있는 구조이기 때문에 데이터 분석에 적합하지 못한 형태의 데이터다. 따라서 데이터 분석을 위해서는 형태를 바꿔주어야 하는데 이 행위를 unpivot한다고 말한다. 엑셀에서 CrossTable데이터를 unpivot하기 위해서는 먼저 데이터를 표 개체로 만들어 파워쿼리 편집기 창으로 와야한다. 연도 컬럼을 선택하고 [우클릭]-[다른 열 피벗 해제]를 하게 되면 연도 열을 제외한 다른 열들이 아래와 같이 unpivot되게 된다. 조금더 깔끔하게 보기위해 열 병합까지 해주게 되면 이런 모습으로 데이터를 깔끔하게 구조화 할 수 있다. ✔지저분한 데이터로 Unpivot 연습하기 겉보기에는 크게 문제가 없..

💡 엑셀 파일통합 [데이터] - [데이터 가져오기] - [파일에서] - [폴더에서]를 통해 합치고자 하는 엑셀 파일이 있는 폴더를 선택한다. (해당 폴더로 들어가면 안되고 반드시 폴더를 선택해야 한다.) 정상적으로 파일들을 불러왔다면 [결합] - [데이터 결합 및 변환]을 통해 작업을 진행 할 수 있다. 파일 병합 창 좌측에서 시트명을 선택하고 확인을 눌러준다. 맨 앞 열에 해당 데이터의 출처가 입력되어있는 모습을 확인 할 수 있다. 💡시트 통합 [데이터] - [데이터 가져오기] - [파일에서] - [Excel통합문서에서]를 통해 엑셀 파일 데이터를 불러올 수 있다. 필요한 데이터가 있는 개별적인 시트가 필요하면 시트명을 모든 시트가 필요하다면 파일명을 클릭해 선택하여 데이터 변환 작업을 해주면 된다. ..

💡파워쿼리를 이용한 웹 스크래핑 [데이터] - [데이터 가져오기] - [기타 원본에서] - [웹]을 눌러 웹 페이지 정보를 가져올 수 있다. 그러면 이처럼 탐색 창이 나타나는데, 여기서 필요한 테이블을 선택하고 데이터 변환을 통해 파워쿼리 편집을 실행 할 수 있다. 그 뒤, 앞서 배운 것 처럼 데이터 형태 변환이라던지, 열을 추가하거나 제거하는 등의 편집 과정을 거칠 수 있다. 💡 M코드 수정 [홈] - [고급 편집기]를 클릭하게 되면 파워쿼리 편집기에서 행동한 편집 정보들이 M코드로 작성되어 있다. 여기서 코드 수정을 통해 편집을 할 수도 있다.

❓ Data Literacy 데이터를 읽고 분석하는 능력. 데이터를 받게 되면 먼저, 데이터가 분석하기 바람직한지 의심하고 검증해보아야 한다. - 정형 데이터인가 비정형 데이터인가 (엑셀 작업의 경우 당연히 정형 데이터일 것이다.) - 일반 데이터 범위인가 표 개체인가 (표 개체가 아니라면 아래와 같이 가공 과정을 거쳐준다.) - 데이터의 구조화 - 필드 별 데이터 타입 (숫자, 문자, 날짜, 수식 중 알맞는 타입으로 입력이 되어있는지) ❓ 표 개체란 뭘까 관련 데이터 그룹을 보다 쉽게 관리하고 분석하기 위해 셀 범위를 Excel 표로 변환 한 것 ❓ 표 개체의 장점 헤더의 드롭다운 목록을 사용해 필터링과 정렬이 쉽다, 수식 및 서식이 자동으로 채워진다, 수식은 구조적 참조를 사용하므로 처리 속도가 빠르..