Contextual AD narration with interleaved multimodal sequence2025年1月1日·Hanlin Wang,Zhan Tong,Kecheng Zheng,Yujun ShenLimin Wang· 0 分钟阅读时长 引用 URL类型会议文章出版物Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition最近更新于 2025年1月1日AuthorsLimin Wang南京大学← CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding 2025年1月1日LeviTor: 3D trajectory oriented image-to-video synthesis 2025年1月1日 →