gpt4o相关技术学习笔记

gpt4o的动机和核心技术问题

原有的VLM model：强行把图像当成token，使用语言模型做生成。→ 没有充分设计图像生成。

gpt4o的VLM model：在LLM中引入更先进的图像生成技术来改进图像生成，实现text and image的unified modeling。

使用auto-regressive model做image generation的好处：拆解复杂的图像分布，理解图像细节。→ 这是diffusion model没有的能力。

核心问题：如何在auto-regressive model中同时构建text generator和image generator。

问题拆解：

大家在解决的问题：