gpt4o的动机和核心技术问题

原有的VLM model:强行把图像当成token,使用语言模型做生成。→ 没有充分设计图像生成。

gpt4o的VLM model:在LLM中引入更先进的图像生成技术来改进图像生成,实现text and image的unified modeling。

使用auto-regressive model做image generation的好处:拆解复杂的图像分布,理解图像细节。→ 这是diffusion model没有的能力。

核心问题:如何在auto-regressive model中同时构建text generator和image generator。

问题拆解:

  1. 好的image tokenizer是怎样的?
  2. 如何用auto-regressive model做image generation?
  3. text和image在auto-regressive model中怎么做交互?

论文集合:https://github.com/lxa9867/Awesome-Autoregressive-Visual-Generation


Autoregressive image generation的论文总结

大家在解决的问题:

  1. 更好的图像生成质量。
  2. 更好的图像理解能力。