프로젝트/성인의 스마트폰 과의존

3. 머신러닝, 베이스 라인과 비교

쩜마_ 2022. 8. 25. 22:25

❓머신러닝

XGBoost 와 RandomForest로 나누어 각각  간단히 학습해보았습니다. 

OrdinalEncoder같은 경우엔 이미 0과 1로 라벨링을 해두었기에 크게 필요하진 않았지만

사용해보았습니다. ( 2가지로 분류되기 때문에 원 핫 인코더도 좋았으리라 생각합니다.)

 

XGBoost 개념 이해 : https://bcho.tistory.com/1354

❓검증

앞서 만든 XGBoost, Randomforest 파이프에 학습 시킨 뒤 검증 데이터 결과를 확인 했습니다.

XGBoost

XGBoost의 경우 검증 정확도 0.9889, 베이스 라인 정확도 0.8237로 높은 정확도를 보였습니다.

특별히 파라미터를 조정하지 않고 진행한 학습인데 높은 정확도를 보인 것으로 보아 데이터 누수가 있었으리라 짐작해볼 수 있었습니다.                                   

데이터 누수란?? : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=tjdudwo93&logNo=221085844907

 

RandomForest

Randomforest의 경우 검증 정확도 : 0.9832, 베이스 라인 정확도 0.8237로 역시 높은 정확도를 보였습니다.

동일하게 파라미터를 조정하지 않았기 때문에 이 또한 데이터 누수를 의심해 볼 수 있다고 생각했습니다.

 

파라미터 조정을 거치지 않은 간단한 모델에서는 둘 다 말도 안되게 좋은 정확도를 보였는데 이를 통해 좋은 모델이라고 볼 수는 없다고 생각합니다.

 

최적의 파라미터를 찾아 다시 테스트 해봐야겠다고 생각했습니다.

 

❓XGBosst 파라미터 튜닝 및 결과

파라미터 설정

❓RandomForest 파라미터 튜닝 및 결과

 

 

마찬가지로 결과가 너무 말도안되게 좋다.