ynnnxxi's 개 빡센 하루 시작 ❤︎

  • 홈
  • 태그
  • 방명록

Question-aware 2

Question Aware Vision Transformer for Multimodal Reasoning

Question Aware Vision Transformer for Multimodal Reasoning (CVPR 2024) Ganz, Roy, et al. "Question aware vision transformer for multimodal reasoning." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024. AbstractVision-Language models는 multimodal reasoning에서 눈에 띄는 발전을 가능하게 했다. 이러한 architecture는 보통 vision encoder, LLM, visual feature를 LLM's representation spac..

Paper 2025.09.24

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering (TPAMI 2025) Song, Enxin, et al. "Moviechat+: Question-aware sparse memory for long video question answering." IEEE Transactions on Pattern Analysis and Machine Intelligence (2025). Abstract최근 video foundation model과 large language model을 통합하여 video understand system을 구축하면 특정 vision task의 limitation을 극복할 수 있다. 하지만 기존 방법들..

Paper 2025.09.24
이전
1
다음
더보기
프로필사진

ynnnxxi's 개 빡센 하루 시작 ❤︎

공부 기록 Blog | 맨날 까먹는 거 공부합니다 ^..♡⃛

  • 분류 전체보기 (16)
    • Task (0)
    • Paper (9)
    • Code (2)
    • Research diary (1)
    • Concept (4)

Tag

Long video, TPAMI, MovieChat, AVQA, VQA, commensense, Question-aware, Video Question Answering, VideoQuestionGrounding, CVPR, Question Answering, post-hoc, vision transformer, VideoQA, paper, Review, VideoQG, Multimodal, Tensor #Deeplearning #PyTorch #Tensorflow, llm,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바