목록분류 전체보기 (25)
성장 일기 - AI

❓기술통계분석 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=boinsystem&logNo=220805551090 기술통계분석(descriptives) 기술통계분석(descriptives) 1.목적 요약통계량(평균, 표준편차)을 계산하거나 변수값을 z점수로 바꾼다 기... blog.naver.com 💡Excel을 이용해 기술통계분석하기 먼저 기술통계분석을 하기 위해서는 몇가지 사전작업이 필요하다. 먼저 엑셀 옵션에 들어가서 [추가 기능] 탭으로 들어가 [Excel 추가 기능]을 선택하고 [이동]을 눌러준다. 이렇게 추가 기능 창이 나올텐데 여기서 [분석 도구 팩]을 선택하고 확인을 눌러준다. 그리고 리본 메뉴 [데이터]에 가보면 ..

💡 빈도표 만들기 이러한 데이터에서 이렇게 빈도와 비율을 알 수 있는 빈도표를 만드는 작업이다. 먼저 파워쿼리 편집기 창에서 빈도를 구하고자 하는 컬럼을 선택 [우클릭]-[그룹화]를 선택해준다. 그럼 이러한 그룹화 창이 나오는데 새 열의 이름을 적어주고 연산은 빈도를 구하는 것이므로 [행 카운트]로 해두고 확인을 누른다. 정상적으로 수행되었다면 구하고자 하는 컬럼이 몇 행이 있는지 카운트 되어 빈도 컬럼에 나타나있을 것이다. 이 빈도 정보를 가지고 비율 컬럼까지 만들어보도록 하겠다. [열 추가] - [사용자 지정 열]을 선택하여 편집창을 띄우자. 수식에 [빈도] / List.Sum(#"그룹화된 행 수"[빈도])를 입력해주면 된다. 빈도 / 빈도들의 합을 한 것인데 #"그룹화된 행 수"[빈도]는 오른쪽 적..

SQL에서 사용하는 Join,Union 기능을 엑셀에서도 클릭 몇 번으로 간편하게 사용할 수 있다. ❓Join의 종류 왼쪽 외부(Left Join) 오른쪽 외부(Right Join) 완전 외부(Outer Join) 내부(Inner Join) 왼쪽 앤티 오른쪽 앤티 엑셀에서 사용할 수 있는 Join기능은 위 처럼 6가지가 있고 이미지로 직관적으로 이해가 될 것이라 생각한다. 혹시 그래도 헷갈린다면 https://hongong.hanbit.co.kr/sql-%EA%B8%B0%EB%B3%B8-%EB%AC%B8%EB%B2%95-joininner-outer-cross-self-join/ 를 참고해 공부하면 좋을 것 같다. SQL 기본 문법: JOIN(INNER, OUTER, CROSS, SELF JOIN) 조인은..

💡CrossTable 데이터를 표 개체로 구조화 하는 법 CrossTable은 가로 세로 양방향으로 정보를 담고 있는 구조이기 때문에 데이터 분석에 적합하지 못한 형태의 데이터다. 따라서 데이터 분석을 위해서는 형태를 바꿔주어야 하는데 이 행위를 unpivot한다고 말한다. 엑셀에서 CrossTable데이터를 unpivot하기 위해서는 먼저 데이터를 표 개체로 만들어 파워쿼리 편집기 창으로 와야한다. 연도 컬럼을 선택하고 [우클릭]-[다른 열 피벗 해제]를 하게 되면 연도 열을 제외한 다른 열들이 아래와 같이 unpivot되게 된다. 조금더 깔끔하게 보기위해 열 병합까지 해주게 되면 이런 모습으로 데이터를 깔끔하게 구조화 할 수 있다. ✔지저분한 데이터로 Unpivot 연습하기 겉보기에는 크게 문제가 없..

💡 엑셀 파일통합 [데이터] - [데이터 가져오기] - [파일에서] - [폴더에서]를 통해 합치고자 하는 엑셀 파일이 있는 폴더를 선택한다. (해당 폴더로 들어가면 안되고 반드시 폴더를 선택해야 한다.) 정상적으로 파일들을 불러왔다면 [결합] - [데이터 결합 및 변환]을 통해 작업을 진행 할 수 있다. 파일 병합 창 좌측에서 시트명을 선택하고 확인을 눌러준다. 맨 앞 열에 해당 데이터의 출처가 입력되어있는 모습을 확인 할 수 있다. 💡시트 통합 [데이터] - [데이터 가져오기] - [파일에서] - [Excel통합문서에서]를 통해 엑셀 파일 데이터를 불러올 수 있다. 필요한 데이터가 있는 개별적인 시트가 필요하면 시트명을 모든 시트가 필요하다면 파일명을 클릭해 선택하여 데이터 변환 작업을 해주면 된다. ..

💡파워쿼리를 이용한 웹 스크래핑 [데이터] - [데이터 가져오기] - [기타 원본에서] - [웹]을 눌러 웹 페이지 정보를 가져올 수 있다. 그러면 이처럼 탐색 창이 나타나는데, 여기서 필요한 테이블을 선택하고 데이터 변환을 통해 파워쿼리 편집을 실행 할 수 있다. 그 뒤, 앞서 배운 것 처럼 데이터 형태 변환이라던지, 열을 추가하거나 제거하는 등의 편집 과정을 거칠 수 있다. 💡 M코드 수정 [홈] - [고급 편집기]를 클릭하게 되면 파워쿼리 편집기에서 행동한 편집 정보들이 M코드로 작성되어 있다. 여기서 코드 수정을 통해 편집을 할 수도 있다.

❓ Data Literacy 데이터를 읽고 분석하는 능력. 데이터를 받게 되면 먼저, 데이터가 분석하기 바람직한지 의심하고 검증해보아야 한다. - 정형 데이터인가 비정형 데이터인가 (엑셀 작업의 경우 당연히 정형 데이터일 것이다.) - 일반 데이터 범위인가 표 개체인가 (표 개체가 아니라면 아래와 같이 가공 과정을 거쳐준다.) - 데이터의 구조화 - 필드 별 데이터 타입 (숫자, 문자, 날짜, 수식 중 알맞는 타입으로 입력이 되어있는지) ❓ 표 개체란 뭘까 관련 데이터 그룹을 보다 쉽게 관리하고 분석하기 위해 셀 범위를 Excel 표로 변환 한 것 ❓ 표 개체의 장점 헤더의 드롭다운 목록을 사용해 필터링과 정렬이 쉽다, 수식 및 서식이 자동으로 채워진다, 수식은 구조적 참조를 사용하므로 처리 속도가 빠르..

❓머신러닝 XGBoost 와 RandomForest로 나누어 각각 간단히 학습해보았습니다. OrdinalEncoder같은 경우엔 이미 0과 1로 라벨링을 해두었기에 크게 필요하진 않았지만 사용해보았습니다. ( 2가지로 분류되기 때문에 원 핫 인코더도 좋았으리라 생각합니다.) XGBoost 개념 이해 : https://bcho.tistory.com/1354 ❓검증 앞서 만든 XGBoost, Randomforest 파이프에 학습 시킨 뒤 검증 데이터 결과를 확인 했습니다. XGBoost의 경우 검증 정확도 0.9889, 베이스 라인 정확도 0.8237로 높은 정확도를 보였습니다. 특별히 파라미터를 조정하지 않고 진행한 학습인데 높은 정확도를 보인 것으로 보아 데이터 누수가 있었으리라 짐작해볼 수 있었습니다...