https://zhuanlan.zhihu.com/p/1913377304173872183

多模态模型相关的观点:

<aside> 💡

简略总结:

纯静态图像学习不Work

→ 多模态模型(Vision-Language Model)可行

→ 但发现多模态模型中的理解模型和生成模型融合后无协同效应

→ O1为多模态模型提供CoT机制的思路,突破传统单步生成的复杂度限制

→ 实验发现多模态模型CoT的泛化能力有限,原因是视觉动作空间未被预训练充分覆盖,而RL只能优化预训练已有的模式

→ 多模态GPT时刻依赖数据工程突破,并且要分阶段解锁能力,优先实现“简单域高可控生成”是关键跳板

</aside>

AGI相关的观点: