原有的VLM model:强行把图像当成token,使用语言模型做生成。→ 没有充分设计图像生成。
gpt4o的VLM model:在LLM中引入更先进的图像生成技术来改进图像生成,实现text and image的unified modeling。
使用auto-regressive model做image generation的好处:拆解复杂的图像分布,理解图像细节。→ 这是diffusion model没有的能力。
核心问题:如何在auto-regressive model中同时构建text generator和image generator。
问题拆解:
论文集合:https://github.com/lxa9867/Awesome-Autoregressive-Visual-Generation
大家在解决的问题: