질문
(1) Teacher-Student Learning에서 Teacher와 Student의 Output의 분포를 비슷하게 만들어주기 위해 Loss함수를 KL divergence를 쓴다고 하는데 왜 CrossEntropy가 쓰이지 않았는지, KL divergence와 CrossEntropy의 어떤 차이점이 있는지?
(2) Softmax(T=t)를 배우던 와중에, Sotmax에 Temperature 값을 취해주면, 0과 1사이의 중간값으로 output이 smoothing되어, 입력에 따라 민감하게 변하는 신호에 Student가 Teacher를 더 잘 따라하게 만든다 것이 이해되지 않음
(3) Semantic information 이란?
토론
(1) [assignment1] - Freeze의 여러 방법
# Freeze the feature extracting convolution layers
# Use chlidren
for name, child in model_finetune.named_children():
if name in ['features']:
for child_parm in child.parameters():
child_parm.requires_grad = False
# Use modules. <class 'torch.nn.modules.*'>
for layer in model_finetune.features:
layer.requires_grad_(False)
# Use parameters. <class 'torch.nn.parameter.Parameter'>
for parm in model_finetune.features.parameters():
parm.requires_grad = False
# module requires_grad_
model_finetune.features.requires_grad_(False)
(2) 논문 구현 스터디 진행 - 멘토님께 의견 구할 것