목록분류 전체보기 (25)
성장 일기 - AI

❓타겟 설정 데이터 분석을 통해 알고자 하는 것이 사용자가 일반 사용자인지, 과의존 사용자인지 구분하는 것이므로 사용자 유형을 타겟으로 잡았습니다. ❓베이스 라인과 평가지표 분류 문제로 보고 진행을 했기 때문에 타겟은 '유형'의 최빈값을 베이스 라인으로 잡았습니다. 평가지표는 현재 데이터가 불균형한데 이 때 가장 모델의 성능을 정확히 평가할 수 있는 F1 스코어와 직관적으로 성능을 볼 수 있는 정확도를 이용 할 생각입니다.

❓주제 선정 스마트폰 등장 이후 사람들의 평소 생활에 많은 변화가 생겼다고 생각합니다. 스마트폰 사용에 있어 분명 장점도 있을 테지만, 단점도 못지않게 많다고 생각합니다. 특히 스마트폰 중독이라고 볼 수 있는 '스마트폰 과의존'에 대해 조사해 어떤 생활 습관이 과의존을 불러오는지, 나는 과의존에 해당될지 등에 대해 알아보고자 했습니다. ❓데이터 준비 '한국지능정보사회진흥원'에서 시행한 '스마트폰 과의존 실태조사'의 Raw Data를 가져와 사용했습니다. (출처 : https://www.data.go.kr/data/15038425/fileData.do) 데이터를 확인해보면 Column이 알아볼 수 없게 작성되어 있는데 이는 함께 첨부되어 있는 xlsx파일을 열어보면 설명되어 있습니다. ❓데이터 전처리 xl..

사실 우울해 할 것 도 없다. 지원 서류를 위해 준비한 기간은 1달도 채 되지않았고 내가 어떤 뛰어난 결과물을 만들어낸것도 아니였기 때문에 사실 그냥 해보는거지 수준으로 작성해서 제출했었으니까. 근데 그래도 우울해서 1주일동안 아무것도 안하고 잊으려고 운동만 했다. 너무 슬프다 흑흗ㄱㅎㄱ

지난 주 화요일에 잊고 있던 AI EXPO에 대한안내 카톡이 왔다. 내가 기억하기론 수요일, 목요일은 기업인(?)만 입장이 가능하고 금요일 하루만 일반인들도 관람이 가능했다. 그래서 금요일은 아침부터 부랴부랴 준비를 해서 삼성역으로 향했다. 약 2시경에 코엑스에 도착했는데 바깥에 의외로 사람이 별로 없길래 '한산하겠네'하고 입장을 했는데 이게 뭐람 코엑스 내부에 그냥 사람이 한가득 꽉차있었다. (이게 강남?) 웃긴건 그 붐비는 사람들 속에서 누가 봐도 AI 엑스포를 보려온 사람인거 같은 사람이 보여서 그 사람뒤를 쫓아 3층D홀에 도착했다. 내가 1층에서 본 인파는 아무것도 아니였다. D홀 입구에는 진짜 엄청난 수의 사람들이 붐벼있었다. 다행히 나는 미리 참가 신청을 해둔 터라 입장에는 큰 문제가 없었다...
❓독립변수(Independent Variable) 인과관계에서 원인이 되는 변수 결과를 예측하기 때문에 예측변수라고 부르기도 함 결과를 설명하기 때문에 설명변수라고 부르기도 함 ex) "고객만족도의 상승으로 재방문율이 올랐다"에서 고객만족도가 독립변수 ❓종속변수(Dependent Variable) 독립변수의 변화에 따라 어떻게 변하는지 알고 싶은 것 인과관계에서 결과에 해당 원인에 의한 반응이기 때문에 반응변수라고 부르기도 함 원인에 의한 결과이기 때문에 결과변수라고 부르기도 함 ex) "고객만족도의 상승으로 재방문율이 올랐다"에서 재방문율이 종속변수 ❓통제변수(Control Variable) 독립변수와 비슷하나 주된 관심사가 아닌 변수 통제변수를 고려하지않고 독립변수만을 고려한다면 종속변수에 미치는 다..

❓Chi square test 주어진 데이터가 특정 예상되는 분포와 동일한 분포를 나타내는지에 대한 가설검정. 예상되는빈도 : 전체 데이터 수 / 데이터의 종류 X^2 = ∑(관측값 - 기대값)^2 / 기댓값 범주형 자료로 구성된 데이터 분석에 이용한다. (Categorical Data) Goodness of fit test(적합도 검정) : 관찰된 비율 값이 기대값과 같은지 조사하는 검정 (어떤 모집단의 표본이 그 모집단을 대표하는지 검정) Test of homogeneity (동질성 검정) : 두 집단의 분포가 동일한지 검정 Test for independence (독립성 검정) : Contingency table(분할표)에 있는 두 개 이상의 변수가 서로 독립인지 검정 ❓p-value 귀무가설이 맞..

1종 오류(type I error)와 2종 오류(type II error)는 각각 귀무가설을 잘못 기각하는 오류와 귀무가설을 잘못 채택하는 오류이다. ❓Type I error 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류. 즉, 실제 음성인 것을 양성으로 판정하는 경우이다. 거짓 양성 또는 알파 오류라고도 한다. ❓Type II error 귀무가설이 실제로 거짓이지만, 이에 불구하고 귀무가설을 채택하는 오류. 즉, 실제 양성인 것을 음성으로 판정하는 경우다. 거짓 음성 또는 베타 오류라고도 한다.

❓귀무가설과 대립가설 귀무가설 : 처음부터 버릴 것을 예상하는 가설 ex) 두 집단 간의 평균 차이는 없을 것이다. 대립가설 : 처음부터 채택할 것을 예상하는 가설 ex) 두 집단 간의 평균 차이가 있을 것이다. ❓T-test 모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본으로부터 분산이나 표준편차를 가지고 검정하는 방법 "두 모집단의 평균 간의 차이는 없다"라는 귀무가설과 "두 모집단의 평균 간에 차이가 있다"라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법 2개의 집단을 비교 가능하며, 3개 이상의 경우 분산분석(ANOVA)을 사용한다. ❓t 값 (t-value) t값이란 t-test에 이용되는 검정통계량으로, 두 집단의 차이의 평균(X)을 표준오차(SE)로 나눈 ..