Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames (NeurIPS 2025) Arnab, Anurag, et al. "Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames." arXiv preprint arXiv:2507.02001 (2025). AbstractVLMs(Vision-Language Models)의 최근 발전에도 불구하고, long-video understanding는 여전히 여려운 문제로 남아 있다. 최신 long-context VLMs는 약 1,000개의 입력 frames를 처리할 수 있지만, 이러한 sequence 길이를 효..