Long video generation论文整理

2025.09.06整理

想解决的问题：

“保证Long-term consistency”的思路：

范式1：改进Memory module

Memory module in video generation
- Routing module，作为video model中的internal memory retrieval engine。
  
  Routing的核心思想：并非序列中的所有信息都同等重要。系统会为每个query动态地选择最需要关注的一小部分信息，而忽略其他不相关的信息。
  - 将multi-modal tokens分chunks，通过dot-product选出与query tokens最相关的top-k chunks，再喂给Flash Attention。
    
    2025.08，Mixture of Contexts for Long Video Generation
    - 具体做法
  - 基于RL训练一个context selection policy，用于预测tokens的relevant scores。
    
    2025.05，InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO
范式2：改进Video tokenization，得到更好的tokens
- 将video tokens和text tokens做更好的融合
  
  2025.07，LoViC: Efficient Long Video Generation with Context Compression
- 将RGB、Depth、Optical flow用3D VAE编码为一个unified latent representation。
  
  2025.08，WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception
- 进一步压缩video tokens
  
  2025.07，TokensGen: Harnessing Condensed Tokens for Long Video Generation
范式3：做Test-time training
- 训练一个neural optimizer，根据test data更新网络参数，用于记忆网络
  
  2025.04，One-Minute Video Generation with Test-Time Training

“避免误差累积导致的Visual degradation”的思路

相关论文