경진대회에 필요하기 위한 것
- 파이프라인의 (빠르고 효율적인)반복
- 점수 개선 IDEA - 캐글 notebook, discussion tab
- 올바른 방향인지에 대한 탄탄한 검증 전략
- 기타 꿀팁
- 앙상블 - 싱글 모델보다 거의 항상 더 좋은 성능을 거둘 수 있음
- startified k-fold 앙상블
- lightGBM + NN / LSTM + BERT
- 대회에서 좋은 성적을 내려면 우선 높은 점수의 싱글 모델이 필요 !
- 코드 관리 v1, v2, v3만들어서 .. - 버전별로 전처리된 데이터, 모델 파일을 저장할 수 있다는 장점 + 후에 여러 모델로 앙상블 진행
좋은 모델 구축
- 좋은 모델이란 train set에서 얻은 점수와 test set에서 얻은 점수가 비슷한 모델
- 점수 갭을 줄이기 위한 k-fold 검증 전략을 구축하기