AI/Paper Review

[Paper Review] Transformer Interpretability Beyond Attention Visualization

LiDARian 2023. 12. 19. 19:16
반응형

Transformer Interpretability Beyond Attention Visualization

openaccess.thecvf.com/content/CVPR2021/papers/Chefer_Transformer_Interpretability_Beyond_Attention_Visualization_CVPR_2021_paper.pdf


Deep Taylor Decomposition 

Supposed Problem

Transformer에 대한 explaining method가 많이 없다. Attention rollout이나 GradCAM 등이 있지만, Attention rollout은 class agnostic하다는 문제가 있고, GradCAM은 무관한 영역을 지정한다는 것을 지적한다. 그 외에 다른 masking method 등은 계산이 많이 든다는 문제가 있음을 지적한다.

뿐만 아니라, 기존 attention rollout 등은 queries, keys, values의 각 영향을 무시하고 average하거나 각 layer마다의 attention score를 average 하는 등의 문제가 있었다. 본 논문에서는 모든 layer를 고려하면서 동시에 attention mechanism의 각 요소들을 average하지 않고 relavancy를 propagate한다.

Method

본 논문의 기반이 되는 Deep Taylor Decomposition에 따라, 다음과 같이 layer간의 relavance를 계산할 수 있다고 한다. 그런데 이전 논문을 뒤적여도 저런 형식의 수식은 없는 것 같은데...

이전 논문에 따라서, 각 layer간 relavancy는 유지된다고 가정한다.

이전 논문에 따라서, ReLU를 거친 결과는 양수만을 가지게 되므로, 양수를 내놓는 neuron에 대해서만 relavance를 계산하면 된다.

하지만 Transformer는 GELU를 사용하기 때문에, positive value와 negative value가 모두 output으로 나온다. 이를 해결하기 위해 positive value를 내놓는 neuron index만을 relavance 계산에 활용한다.

또한, Transformer에서의 skip connection과 query-key-value 계산으로 인한 matrix multiplication은 이전과 마찬가지로 다음과 같이 relavance conservation rule을 만족해야함을 가정한다.

그런데, matrix multiplication은 이 법칙이 유지가 되지 않기에, 다음과 같은 normalization을 통해 conservation rule이 유지되도록한다.

그렇게 해서 attention map애 대한 relavance를 구하고, 다음 식을 통해 각 attention layer의 softmax단에 대해 hamadar multiplication을 거쳐 class-specific heatmap C를 구한다.

그림 상으로는 다음과 같다.

Experiment

보다시피 제안된 Transformer LRP가 가장 합리적인 수준의 heatmap을 만드는 것을 알 수 있다.

뿐만 아니라 GradCAM을 제외한 다른 방법들과 달리, Transformer LRP를 통해 class-specific한 heatmap을 얻을 수 있다.

성능상으로 다른 방법들보다 우위에 있다고 한다.

 

layer에 따른 비교 결과 output에 가까운 layer를 활용하는 것이 input에 가까운 것을 사용하는 것에 비해 성능이 좋았다고 한다. 또한 기본적으로 Attention map의 gradient를 사용하는 것이 Attention map 그 자체를 활용하는 것보다 낫다. 물론 생각보다 성능이 크게 낮아지지는 않는다.

반응형