1. 이미 학습된 모델이 out-of-distribution data를 만났을때, domain gap을 줄이기 위해 test-time adaptation(TTA)을 한다. 특히 Mean Teacher를 자주 사용한다. 2. Symmetric Cross Entropy loss가 Cross Entropy loss보다 더 나은 graident를 만들어낸다. 다음은 CE의 수식과 그 gradient. teacher- student model을 쓴다고 가정할 때, reversed cross entropy loss를 보면, student model prediction p에 상관없이 teacher model prediction q가 one-hot이면 최대, uniform이면 최소가 되는 모습을 보여준다. 이는 L_r..