post-hoc(사후 해석) : model이 이미 학습된 이후(post-hoc)에
"model이 왜 이런 예측을 했는지"를 나중에 해석하는 방법
model 내부를 다시 train하거나 바꾸지 않고, 이미 trained model을 해석만 하는 방법!
☞ ☞ 모델을 바꾸지 않고, 결과를 설명하는 데 focus
Example)
Vision Transformer가 '이 image는 고양이다' 라고 예측 했다고 가정,
post-hoc 방법은 이 상태 그대로 (모델이 이미 내린 이 결정을 바꾸지 않고)
"어떤 image 부분(piexel, patch, ...)이 '고양이' 판단에 가장 큰 영향을 미쳤는가?" 를 찾아냄
☞ 이를 위해서 pixel 별로 중요도 점수(salience score)를 계산하고, 이 결과를 heatmap 형태로 시각화함
☞ 이 heatmap을 사람이 보고, 'model이 고양이의 얼굴 부분을 보고 '고양이'라고 판단했구나' 라는 생각을 할 수 있게 한다.
'Concept' 카테고리의 다른 글
| Atkinson-Shiffrin (0) | 2025.09.24 |
|---|---|
| VRAM (0) | 2025.09.24 |
| Instruction tuning (0) | 2025.09.17 |