2025.09.06整理
想解决的问题:
“保证Long-term consistency”的思路:
范式1:改进Memory module(待补充)
Context tokens既包含了短期的high-resolution tokens, 又包含了长期的coarse tokens。
2025.03,Long-Context Autoregressive Video Modeling with Next-Frame Prediction
2025.04,Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
对remote context tokens做temporal decay。
2025.03,Long-Context Autoregressive Video Modeling with Next-Frame Prediction
范式2:Routing module,作为video model中的internal memory retrieval engine。
Routing的核心思想:并非序列中的所有信息都同等重要。系统会为每个query动态地选择最需要关注的一小部分信息,而忽略其他不相关的信息。
将multi-modal tokens分chunks,通过dot-product选出与query tokens最相关的top-k chunks,再喂给Flash Attention。
2025.08,Mixture of Contexts for Long Video Generation
基于RL训练一个context selection policy,用于预测tokens的relevant scores。
2025.05,InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO
范式3:改进Video tokenization,得到更好的tokens
将video tokens和text tokens做更好的融合
2025.07,LoViC: Efficient Long Video Generation with Context Compression
将RGB、Depth、Optical flow用3D VAE编码为一个unified latent representation。
2025.08,WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception
进一步压缩video tokens
2025.07,TokensGen: Harnessing Condensed Tokens for Long Video Generation
范式4:做Test-time training
训练一个neural optimizer,根据test data更新网络参数,用于记忆网络
“避免误差累积导致的Visual degradation”的思路
使用generated frames作为condition。
2025.06,Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Degradation-based training strategy:对previous condition做degradation。
2025.08,LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
Iterative denoising,同时对很多帧做denoising,不同帧可能处于不同denoising step
2024.07,Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
2025.02,History-Guided Video Diffusion
Chunk-wise denoising
边去噪边增加视频帧数
在Denosing path中逐渐增加其他信息
2025.04,Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens