Paper

On the Faithfulness of Vision Transformer Explanations

ynnnxxi 2025. 10. 14. 10:57

On the Faithfulness of Vision Transformer Explanaitons (CVPR 2024)

 

Wu, Junyi, et al. "On the faithfulness of vision transformer explanations." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.


Abstract

Vision Transformer를 해석하기 위해서 post-hoc explanations는 input pixels에 중요도 점수(salience scores)를 할당하여 사람이 이해할 수 있는 heatmap을 제공한다. 그러나 이러한 해석이 실제로 model's output의 true rationales를 반영하는 지 아직 충분히 탐구되지 않았다. 이 차이를 해결하기 위해 해당 논문은 faithfulness criterion of explanations를 연구한다.

☞ 할당된 중요도 점수가 해당 input pixel이 model's prediction에 미치는 영향을 정확히 나타내야 한다

Faithfulness를 평가하기 위해, 새로운 평가 지표 Salience-guided Faithfulness Coefficient (SaCo)를 제안한다. 이는 중요도 분포의 핵심 정보를 활용한 새로운 평가 척도이다. 서로 다른 pixel group 간의 pair-wise comparison을 수행하고, 중요도 점수 차이를 집계하여 explanation's degree of faithfulness를 나타낸다.

기존의 평가 지표들은 advanced explanation method & Random Attribution을 구분하는 데 어려움을 겪으며, 결과적으로 faithfulness property를 제대로 포착하지 못한다.


Introduction

Figure 1. Explanation result and illustration of two perturbation manners: cumulative perturbation and our SaCo perturbation. Previous metrics perturb the pixel subsets cumulatively. In contrast, the SaCo perturbs them individually to directly compare their influences.

 

위쪽: 기존 방법 (Cumulative Perturbation)

아래쪽: 제안한 방법 (Individual Perturbation, SaCo)

 

input: 원본 image

explanation of "elephant":  "elephant" class에 대한 heatmap

→ heatmap의 붉은색 영역: model이 해당 부분은 "elephant"를 판단하는데 중요하다고 본 영역

 

<Cumulative Perturbation>

  • 중요도 점수 순위에 따라 상위 pixel부터 점점 누적해서 remove
  • 가장 중요한 pixel 10%, 20%, 30%, ... 이런식으로 점차 넓혀 가는 방식

→ remove 0-90%: 상위 90% pixel을 모두 remove. 사실상 거의 모든 중요한 영역이 제거되어, 남은 부분이 거의 없음

→ remove 100%: 전체 pixel을 제거하면 완전한 회색 화면이 됨

  • 문제점
    • 각 구간의 개별 영향력을 구분할 수 없음
      • 0-10%와 90-100% 구간의 영향을 따로 비교하고 싶어도, 이미 앞 구간 pixel이 모두 제거된 상태이기 때문에 영향을 분리해서 측정할 수 없음
    • 누적 효과 때문에 perturbation 구간이 서로 간섭함
      • 상위 90%를 제거했을 때의 영향에는 앞서 제거된 모든 구간(0-80%)의 영향이 섞여 있음 → 정확한 비교 불가
    • faithfulness를 세밀하게 검증할 수 없음
      • 각 pixel group(중요도 순위별 구간)이 model prediction에 미치는 상대적 영향 차이를 직접 확인할 수 없음

<Individual Perturbation (SaCo)>

  • 각 중요도 구간별로 개별적으로(독립적으로) perturbation 수행
  • 0-10%만 remove, 10-20%만 remove, ... → 각각을 독립된 실험으로 수행하고 model 반응을 개별적으로 측정

→ remove 0-10%: 상위 10% 영역막 remove. model의 "elephant" 확신도 감소할 것임

→ remove 80-90%, remove 90-100%: 중요도 점수가 낮은 pixels 제거. 이 경우 model의 prediction 확률은 거의 변하지 않을 가능성이 큼

  • 장점
    • pixel group별 영향력을 개별적으로 비교 가능
      • '상위 10% remove' VS '하위 10% remove' 의 model 반응 차이 직접 측정 가능
      • 각 group이 prediction에 미치는 실질적인 영향력 차이를 정량화 할 수 있음 
    • faithfulness 검증에 더 적합
      • 정말로 중요도가 높은 영역이 model prediction에 큰 영향을 주는지 직접 확인 가능
      • 중요도 점수의 크기(magnitude)와 model 반응 간의 상관관계 평가 가능
    • SaCo 계산에 사용됨
      • 각 구간별 반응 차이를 기반으로 SaCo(Salience-guided Faithfulness Coefficient)를 계산
      • model 반응이 중요도 점수의 순위 및 크기와 얼마나 일치하는 지를 계량적으로 표현

Computer Vision 분야에서 Transformer의 광범위한 사용은 blackbox nature를 해석해야 할 필요성을 강조한다. 이는 전통적인 post-hoc interpretation methods - 주로 MLP와 CNN을 위해 설계된 methods에 challenge이다.

 

(post-hoc 참고! 2025.10.08 - [Concept] - post-hoc)

 

Vision Transformer에 특화된 new explanation paradigms을 개발하려는 연구들 활발히 이루어지고 있다. 여기에서는 attention mechanisim이 핵심적인 역할이다. 이러한 explanation methods는 attention distribution을 통합하여 input image patch로부터 추출된 tokens에 대해 중요도 점수를 추정한다. 이후 이러한 점수들은 pixel space 전체로 interpolation 되어 시각적으로 설득력 있는 heatmap을 생성하고, 이는 human intuition과 잘 맞는다. 

최근 연구들은 이러한 해석이 ture reasoning process of the Transormer model을 얼마나 정확하게 반영하는지 평가하는 것이 매우 중요하다고 주장하며, 이를 faithfulness이라고 칭했다.

post-hoc explanations의 품질을 평가하기 위해, 최근 연구들은 일반적으로 ablation approach를 채택했다. 이 방법은 평가 중인 설명 기법에 의해 가장 중요하거나 덜 중요하다고 식별된 input image pixel을 교란(perturb)하는 절차를 포함한다. 예를 들어 가장 높은 중요도 점수를 가진 pixel을 교란한 후 model의 정확도가 감소하는 지를 관찰하고, 해당 설명의 타당성을 간접적으로 검증한다. 


Ablation approach

idea: 중요하다고 표시된 부분을 실제로 없애보는 실험

☞ explanation method가 부여한 salience score가 신뢰할 만한지 직접 검증하는 방식

Example)

  • explanation method가 특정 부분에 높은 점수를 부여했다고 가정 (= 중요한 부분)
  • 이 부분의 pixel을 perturb (해당 영역을 masking, noise 추가 등..)
  • 이 image를 model에게 다시 주고 예측이 얼마나 나빠지는 지를 관찰

model의 정확도가 크게 떨어짐: 진짜 중요한 부분 제거 ☞ explanation method's faithfulness good

model의 정확도가 거의 변하지 않거나 그대로라면: 중요하다고 했던 부분은 실제로 중요하지 않음 ☞ explanation method's faithfulness bad


 

이러한 전략들이 널리 사용되고 있음에도 불구하고, 해당 연구는 기존 method들이 모두 faithfulness의 정도를 적절히 평가하지 못하고 있음을 드러내고, core assumption of faithfulness를 명확하게 규정한다.

☞ 중요도 점수의 크기(magnitude)가 예상되는 영향 수준을 나타낸다.

(i) 더 높은 점수를 받은 input pixel은 낮은 점수를 받은 pixel보다 model의 예측에 더 큰 영향을 미칠 것으로 기대됨

(ii) 중요도 점수 차이가 큰 두 pixel group은 model 예측에 미치는 영향의 차이 또한 더 클 것으로 예상됨

 

이러한 요구사항(desiderata)을 충족하기 위해 faithfulness를 포괄적으로 평가하려면 다음 두 가지가 필요하다.

(i) 중요도 크기가 다른 input pixels의 영향력의 예상 차이를 반영

(ii) 중요도 점수의 차이를 정량화하여 그 영향력의 예상 차이를 반영

그러나 기존 평가 지표들은 두 측면에서 모두 부족하다. 누적 교란(cumulative perturbation)에 의존하며, magnitude distribution 에 내재된 정보를 고려하지 않는다.

 

Faithfulness가 model의 행동을 올바르게 설명하기 위해 필수적이라는 점을 인식하고, 해당 논문에서 새로운 평가 framework인 'Salience-guided Faithfulness Coefficient (SaCo)' 를 제안한다.

SaCo는 설명 기법이 model의 행동과 얼마나 일치하는지를 분석한다. 제안된 지표는 서로 다른 중요도 점수를 가진 pixel subset에 대한 통계적 분석을 수행하고, 이들의 model prediction에 대한 양향을 비교함으로써 작동한다. 중요도 점수 분포는 해당 pixel들의 실제 영향과의 alignment 정도에 따라 평가된다.

→ 높은 중요도 점수를 가진 pixel subset이 낮은 점수를 가진 subset보다 model prediction에 더 큰영향을 미친다면 (기대한대로) 해당 pair는 faithfulness 기준을 만족하는 것으로 간주

결과적으로, 두 subset 간의 중요도 점수 차이 (기대의 정도)는 측정된 결과에 positive accumulation을 한다. 반대로 기대를 충족하지 못한 pair는 violator로 식별되어 결과에 negative contribution을 한다. 따라서 SaCo는 서로 다른 pixel 간 명시적 비교를 포함하고, 이들의 예상 영향 차이를 포착함으로써 core assumption validity를 검증하는 데 적합하다.

 

Contibution

  • 설명 기법이 faithfulness의 핵심 가정에 얼마나 부합하는지를 평가하기 위한 new 지표인 SaCo 개발
  • 실험적으로 SaCo가 의미 이쓴 설명 기법과 Random Attribution을 명확히 구분할 수 있음을 보여주어, 유용한 banchmark를 제시한다.
  • 현재 attention 기반 설명 기법의 설계 중 일부 요소들이 faithfulness를 변화시킬 수 있음을 밝혀내고, gradient 정보와 aggregation rules의 중요성을 강조하였다. 이를 통해 Vision Transformer 해석 가능성 연구의 향후 발전 방향을 제시한다.

concept만 가볍게 작성. AI리버스 수업에서 review하기 위해서 읽은 논문이지만, 이런 분야가 있고 연구를 한다는게 신기하다고 생각했다...