Knowledge를 어떻게 뽑아 낼 것인가..!에 대해 주로 논의를 해 볼 예정
→ 얼마나 뽑아내는지에 따라서.. 나뉠 수 있음..!
Response-Based Knowledge Distillation
Teacher model의 last output layer를 활용하는 기법, 즉 직접적인 final prediction을 활용
대표적으로.. hinton loss 사용
Feature-Based Knowledge
Teacher layer의 중간중간의 intermediate representations를 student가 학습하도록 → 중간중간 양측 결과가 비슷하도록학습..!
transformation matrix로 차원을 맞춰준다..! (feature channel 수가 보통은 teacher가 많으므로 이를 맞춰주기 위해 도입)
중간 결과를 가져오므로, network 구조에 크게 dependent함..!
Relation-Based Knowledge Distillation
다른 레이어나, smaple들 간의 관계를 정의하여 knowledge distillation을 수행..!
정리 : 엔지니어 입장에서 가져다 쓰기엔 어떨까?