2025.09.06整理
想解决的问题:
“保证Long-term consistency”的思路:
范式1:改进Memory module
Memory module in video generation
Routing module,作为video model中的internal memory retrieval engine。
Routing的核心思想:并非序列中的所有信息都同等重要。系统会为每个query动态地选择最需要关注的一小部分信息,而忽略其他不相关的信息。
将multi-modal tokens分chunks,通过dot-product选出与query tokens最相关的top-k chunks,再喂给Flash Attention。
2025.08,Mixture of Contexts for Long Video Generation
基于RL训练一个context selection policy,用于预测tokens的relevant scores。
2025.05,InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO
范式2:改进Video tokenization,得到更好的tokens
将video tokens和text tokens做更好的融合
2025.07,LoViC: Efficient Long Video Generation with Context Compression
将RGB、Depth、Optical flow用3D VAE编码为一个unified latent representation。
2025.08,WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception
进一步压缩video tokens
2025.07,TokensGen: Harnessing Condensed Tokens for Long Video Generation
范式3:做Test-time training
训练一个neural optimizer,根据test data更新网络参数,用于记忆网络
“避免误差累积导致的Visual degradation”的思路
使用generated frames作为condition。
2025.06,Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Degradation-based training strategy:对previous condition做degradation。
2025.08,LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
Chunk-wise denoising
Iterative denoising,同时对很多帧做denoising,不同帧可能处于不同denoising step
2024.07,Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
2025.02,History-Guided Video Diffusion
边去噪边增加视频帧数
在Diffusion process中逐渐增加其他信息
2025.04,Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
2025.08,Mixture of Contexts for Long Video Generation
2025.08,WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception