분류 전체보기 16

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames (NeurIPS 2025) Arnab, Anurag, et al. "Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames." arXiv preprint arXiv:2507.02001 (2025). AbstractVLMs(Vision-Language Models)의 최근 발전에도 불구하고, long-video understanding는 여전히 여려운 문제로 남아 있다. 최신 long-context VLMs는 약 1,000개의 입력 frames를 처리할 수 있지만, 이러한 sequence 길이를 효..

Paper 2026.01.28

Agentic Keyframe Search for Video Question Answering

Agentic Keyframe Search for Video Question Answering (arXiv 2025) Fan, Sunqi, Meng-Hao Guo, and Shuojin Yang. "Agentic Keyframe Search for Video Question Answering." arXiv preprint arXiv:2503.16032 (2025). .AbstractVideoQA(Video Question Answering)은 자연어 상호작용을 통해 video로부터 핵심 정보를 추출하고 이해할 수 있도록 하며, 이는 지능을 달성하기 위한 중요한 단계이다. 그러나 video의 철저한 이해에 대한 요구와 높은 computational cost는 VideoQA의 적용을 제한하고 있다.이를 해..

Paper 2026.01.28

Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning

Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning (CVPR 2025) Liu, Huabin, Filip Ilievski, and Cees GM Snoek. "Commonsense video question answering through video-grounded entailment tree reasoning." Proceedings of the Computer Vision and Pattern Recognition Conference. 2025. . Vol. 39. No. 7. 2025.Abstract이 논문은 commonsense video question answering (VQA)를 위한 최..

Paper 2026.01.06

On the Faithfulness of Vision Transformer Explanations

On the Faithfulness of Vision Transformer Explanaitons (CVPR 2024) Wu, Junyi, et al. "On the faithfulness of vision transformer explanations." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. AbstractVision Transformer를 해석하기 위해서 post-hoc explanations는 input pixels에 중요도 점수(salience scores)를 할당하여 사람이 이해할 수 있는 heatmap을 제공한다. 그러나 이러한 해석이 실제로 model's output의 t..

Paper 2025.10.14

post-hoc

post-hoc(사후 해석) : model이 이미 학습된 이후(post-hoc)에"model이 왜 이런 예측을 했는지"를 나중에 해석하는 방법model 내부를 다시 train하거나 바꾸지 않고, 이미 trained model을 해석만 하는 방법! ☞ ☞ 모델을 바꾸지 않고, 결과를 설명하는 데 focus Example)Vision Transformer가 '이 image는 고양이다' 라고 예측 했다고 가정,post-hoc 방법은 이 상태 그대로 (모델이 이미 내린 이 결정을 바꾸지 않고)"어떤 image 부분(piexel, patch, ...)이 '고양이' 판단에 가장 큰 영향을 미쳤는가?" 를 찾아냄☞ 이를 위해서 pixel 별로 중요도 점수(salience score)를 계산하고, 이 결과를 heatm..

Concept 2025.10.08

Question Aware Vision Transformer for Multimodal Reasoning

Question Aware Vision Transformer for Multimodal Reasoning (CVPR 2024) Ganz, Roy, et al. "Question aware vision transformer for multimodal reasoning." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024. AbstractVision-Language models는 multimodal reasoning에서 눈에 띄는 발전을 가능하게 했다. 이러한 architecture는 보통 vision encoder, LLM, visual feature를 LLM's representation spac..

Paper 2025.09.24

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering (TPAMI 2025) Song, Enxin, et al. "Moviechat+: Question-aware sparse memory for long video question answering." IEEE Transactions on Pattern Analysis and Machine Intelligence (2025). Abstract최근 video foundation model과 large language model을 통합하여 video understand system을 구축하면 특정 vision task의 limitation을 극복할 수 있다. 하지만 기존 방법들..

Paper 2025.09.24

Atkinson-Shiffrin

Atkinson-Shiffrin 모형: 인간 기억은 '입력 → 저장소 → 출력'의 정보 처리 파이프라이으로 설명하는 다중 저장소(multi store) 이론 ** 핵심 **자극이 "감각 기억 → 단기 기억(작업 공간) → 장기 기억"을 거치며, 그 사이를 control processes(통제 과정)이 조절함 1. 감각 기억 (Sensory memory)input 채널 별 매우 짧은 보존장면의 '잔상'을 넓게 잡고, attention을 받은 정보만 다음 단계로 이동2. 단기 기억/작업 공간 (Short-term/Working)통제 과정(control processes): rehearsal, chunking 등을 통해 정보를 유지/변환지속 시간: 수 초 (반복 없으면 소실)3. 장기 기억 (Long-term..

Concept 2025.09.24

VRAM

VRAM: Video Random Access Memory ☞ Video RAM* 시스템 RAM: CPU 전용. VRAM은 그래픽 카드에 있는 전용 memory이다.그래픽/영상 렌더링이나 deeplearning 연산에서 GPU가 초당 데이터를 지연 없이 읽고 쓰기 위해서 사용한다 !!VRAM용량이 클수록 더 높은 해상도와 그래픽 품질 설정이 가능하고, 시스템 메모리(RAM)보다 훨씬 빠른 access 작업 성능을 향상시킨다. 주요 점유 항목 (deeplearning에서): model weight, optimizer 상태, 중간 tensor/cache 등..OOM(Out Of Memory) 방지Monitoring: nvidia-smi로 전체/프로세스 별 VRAM 확인 가능. (nvitop으로도 가능! 시각..

Concept 2025.09.24

MEERKAT: Audio-Visual Large Language Model for Grounding in Space and Time

MEERKAT: Audio-Visual Large Language Model for Grounding in Space and Time (ECCV 2024) Chowdhury, Sanjoy, et al. "Meerkat: Audio-visual large language model for grounding in space and time." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024. AbstractLLM(Large Language Model)의 뛰어난 능력을 활용해서 최근의 MLLM(Multimodal Large Language Model) 연구는 이를 visual, audio와 같은 다른 modalit..

Paper 2025.09.23