Paper

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames

ynnnxxi 2026. 1. 28. 19:14

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames (NeurIPS 2025)

 

Arnab, Anurag, et al. "Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames." arXiv preprint arXiv:2507.02001 (2025).


Abstract

VLMs(Vision-Language Models)의 최근 발전에도 불구하고, long-video understanding는 여전히 여려운 문제로 남아 있다. 최신 long-context VLMs는 약 1,000개의 입력 frames를 처리할 수 있지만, 이러한 sequence 길이를 효과적으로 활용하는 데에는 여전히 어려움을 겪고 있으며, context window 내의 관련 없는 방해 요소들에 의해 성능이 저하된다. 해당 논문에서는 video question-answering을 위한 추론 전략인 Temporal Chain of Thought를 제안하며, 이는 model의 입력 context를 선별한다. VLM 자체를 사용하여 video로부터 가장 관련성이 높은 frames를 반복적으로 식별하고 추출하며, 이렇게 선택된 frames를 답변 생성에 사용한다.

추론 시점에서 더 많은 연산을 활용하여 가장 관련성 높은 context를 선택하는 것이 정확도 향상으로 이어짐을 보이며, 이는 LLMs의 추론 시점 스케일링에 관한 최근 연구 결과와 일치한다. 제안하는 방법은 4개의 다양한 video question-answering datasets에서 SOTA를 달성하였으며, 서로 다른 3개의 VLM 전반에 걸쳐 일관된 성능 향상을 보여준다. 특히 해당 방법은 그렇지 않으면 model의 context window에 포함될 수 없는 더 긴 video에서 두드러진 성능을 보인다.

 


Introduction

Figure 1: Temporal Cahin of Thought. Motivated by the fact that long input contexts can have distractors which confuse the model, we use the VLM itself to first extract relevant context (blue box) before processing it. Our approach improves accuracy, and by iteratively processing parts of the video at a time, can also reduce the model's required context window.

 

VLMs의 최근 발전에도 불구하고, understanding long videos는 여전히 어려운 문제로 남아 있다. 이러한 어려움은 이 task가 VLMs이 긴 input token sequence를 처리하도록 요구하며, 동시에 action and scene understanding, long-term memory, tracking sate changes, interactions among others 서로 밀접하게 연관된 다양한 능력을 갖추도록 요구하기 때문이다. 수백 개 혹은 천 개에 달하는 input frames를 처리할 수 있도록 하는 VLMs의 장문 context 처리 능력은 이러한 측면에서 중요한 진전이다. 그러나 다수의 연구들은 더 긴 context를 처리하는 것이 model이 관련 없거나 오해를 불러일으키는 contents에 압도되어 정확도가 포화되거나 오히려 저하될 수 있음을 보여준다.

Input context가 지나치게 클 경우, 오히려 방해 요소가 될 수 있다는 관찰에 기반하여, 해당 논문에서는 Temporal Chain of Thought라는 추론 전략을 제안한다. 이 전략은 먼저 input video로부터 관련 있는 context를 집계한 후, 이를 사용하여 question에 답한다. video에서 방해가 되는 context를 제거한다는 원칙에 기반한 기존 연구들은 일반적으로 여러 models로 구성된 앙상블을 사용하였으며, 보통 하나의 model은 개별 frame을 caption화 하고, 다른 하나는 관련 frame을 찾은 뒤, 마지막으로 LLM을 사용해 질문에 답하는 방식을 취하였다. 반면에 해당 연구에서는 단일 VLM만을 사용하여 관련 context를 선택하고 question에 답하며, 이러한 추론 전략이 상당한 성능 향상을  제공함을 보인다.

제안하는 접근법은 추론 시점에서의 연산량을 확장하는 것이 model parameters를 확장하는 것보다 더 효과적이라는 최근의 LLMs 연구들에서 영감을 받았다. 이와 유사하게, video로부터 관련 정보를 집계하기 위해 더 많은 연산을 활용하는 것이 더 높은 정확도로 이어짐을 보인다. 제안하는 접근법은 video로부터 관련 context를 반복적으로 추출하기 때문에, 그렇지 않으면 model의 context 한계 내에 들어오지 못했을 videos도 효과적으로 처리할 수 있다. 더 나아가, 이 접근법은 언어 영역에서의 Chain-of-Thought prompting과도 연결된다. 해당 방식에서는 model이 최종 답변을 생성하기 전에 이를 돕는 text 기반의 thoughts를 먼저 출력하도록 유도한다. video에서 관련 frame을 집계하는 과정에서, 이러한 frames를 visual thoughts로 볼 수 있다. 또한 부수적인 결과로, 관련 frame을 선택한 model의 정당화 근거를 활용하여 model을 해석할 수도 있다.

Video로부터 관련 context를 집계하는 일반적인 원칙이 video question-answering에 유익함을 확인하였으며, 제안한 방법이 4개의 datasets과 3개의 서로 다른 VLM 전반에 걸쳐 일관되게 성능 향상 시킴을 보였다. 수백 frames 규모의 짧은 video의 경우, 전체 video가 model context window에 들어갈 수 있음에도 불구하고, 이 추론 전략은 입력에서 방해 요소를 제거함으로써 model의 추론 능력을 향상시켜 성능을 개선한다는 점을 보여준다.

 

Contribution

  • A novel VLM inference strategy for Video QA
  • context 집계 원칙이 효과적임을 확인하는 철저한 실험 분석을 수행, 제안한 접근법이 다양한 유형에 적용 가능하며, 여러 VLM으로 일반화됨을 보임
  • 4개의 video understanding benchmarks에서 SOTA를 달성함

Proposed Approach

Figure 2: Temporal Chain of Thought. We use Single-Step TCoT(left, Sec. 3.2.) to construct our final approach (right). Namely, we use the VLM itself to extract relevant frames from an input video clip, conditioned on the input question. To scalably process longer videos, we perform this approach within l segments which span the video to extract the most relevant context. Finally, we use only the extracted context for answering

 

<Single-Stage Temporal Chain of Thought> (left)

  • Input: N개의 frames & question (text)
  • Frame Selction  prompt: 답을 먼저 말하지 말고, 필요한 frame ID 목록을 먼저 출력
  • Output:
    • question과 관련 있다고 판단한 frame 번호들의 list + Justification (왜 그 frames 관련 있는지에 대한 근거)
    • "답을 생성하기 전에, VLM 스스로 관련 frame index (visual evidence)를 고르게 만든다"

<Dynamic-Segment Temporal Chain of Thought> (right)

  • Decompose video into segments
    • video 전체를 l개의 segments로 나눔
    • 각 segment는 video의 연속된 시간 구간
  • 각 segment를 독립적으로 Single-Stage TCoT로 처리
    • 각 segment에서 frame 일부를 sampling한 뒤, 이 frames와 question을 넣어서 해당 segment에서 중요한 frames만 선택
  • Frame aggregation
    • segment별로 뽑힌 중요 frames를 모아서 최종적으로 question과 관련된 핵심 context(frames 묶음)을 만듦
  • Answer 단계

Figure 3: Prompt for our VLM selection call, S, (Eq. 4).

 

Standard VLM inference

Input video에 대한 question에 답하기 위한 VLM의 표준 추론 방식은 이를 단순히 model에 전달하는 것이다.시각적 입력은 일반적으로 language token과 동일한 space로 투영되거나 tokenizer된다. model의 전체 sequence 길이는 연산량에 의해 제한되기 때문에, video의 frames은 보통 model의 context 한계 안에 들어오도록 subsampling 되어야 한다. 가장 긴 context window를 가진 현재의 model은 일반적으로 1fps 기준으로 최대 1시간 길이의 video를 처리할 수 있다.

 

Temrporal Chain of Thought

제안하는 방법은 VLMs가 점점 더 큰 input context 길이를 처리할 수 있게 되었음에도 불구하고, 여전히 이를 효과적으로 활용하지 못하고, 큰 context 안에 포함된 관련 없는 방해 요소들로 인해 혼란을 겪는다는 사실에서 출발한다. 입력 video에 대한 question에 대해 답하기 위해서, 두 입력을 그대로 모델에게 직접 전달하지 않는다. video question-answering을 먼저 video로부터 관련 context를 추출한 뒤, 이를 사용해 question에 답하는 2 stage로 분해한다. 이 분해 과정 이후 답변을 수행할 동일한 instruction-tuned VLM에 의해 수행된다. 이는 Chain-of-Thought 및 관련 LLM 추론 전략들에서 영감을 받는 것이다.

Single-Step TCoT

이 간단한 접근법(Figure 2, left)는 최종 방법의 기반이 되며, VLM에게 question에 답하기 위해 어떤 frames가 필요한지 직접 질의하는 방식이다.  

Dynamic-Step TCoT

video 길이를 model의 context 한계로부터 분리하고, model의 context 한계에 맞추기 위해 input frames를 uniformly sampling할 때 발생하는 frame recall의 한계를 극복하기 위해, Dynamic-Segment TCoT가 설계되었다. Figure 2에 나타난 바와 같이, video를 l개의 분리된 segment로 나누고, 이를 독립적으로 처리한 뒤, 동일한 길이의 l개의 겹치지 않는 segment로 나눈다. 

Discussion

video를 l개의 segment로 분할함으로써, video 길이와 무관하게 고정된 계산 비용으로 long-video를 처리할 수 있다. 표준 VLM 추론의 경우, 계산 비용은 video 길이에 따라 증가하며, 최대 지원되는 context 한계에 의해 제한된다. 반면, 이 접근법에서는 필요한 context 길이가 항상 고정되어 있으며, 총 context 길이 x segment 갯수의 frame을 처리하게 된다.

segment 수를 조절함으로써, 추론 시 계산량과 정확도를 모두 부드럽게 증가시킬 수 있다. 이러한 경향은 추론 시점에 추가적인 연산을 사용하여 LLM으로 어려운 문제를 해결하는 최근의 언어 분야 연구들과도 일치한다.


Experiments

Table 3: State-of-the-art commparison. We report our won Gemini 1.5 Flash baseline for Egoschema and LVBench as it outperforms [54, 57]. For LVBench and OpenEQA, we report the tokens used in a single context-window, and the total number of tokens processed. OpenEQA uses the "LLM-as-judge" protocol of using GPT-4 evaluate the answer. †: Our reproduction.


"input video에서 관련 context를 추출하지만, 중간 표현으로 caption을 사용하지 않고 video frame에 직접 작동한다는 점에서 근본적으로 다르다. frame 별 초기 caption에 의존하지 않기 때문에, 이 접근법은 captioner가 question과 관련된 세부사항을 놓치는 문제에 의해 제안되지 않는다. (특히 이들 연구에서 captioning은 input question에 조건화되어 있지 않기 때문이다)"

라고 논문에 나와있는데, 이 부분을 잘 참고하면 좋을 것 같다. 이 Chain-of-Thought 방식이 정말 효과적인 것인지, 아니면 VLM의 효과가 좋은 건지 비교하는 실험이 있으면 좋을 것 같다.