张祥雨访谈-多模态&AGI认知学习笔记

多模态模型相关的观点：

<aside> 💡

简略总结：

纯静态图像学习不Work

→ 多模态模型（Vision-Language Model）可行

→ 但发现多模态模型中的理解模型和生成模型融合后无协同效应

→ O1为多模态模型提供CoT机制的思路，突破传统单步生成的复杂度限制

→ 实验发现多模态模型CoT的泛化能力有限，原因是视觉动作空间未被预训练充分覆盖，而RL只能优化预训练已有的模式

→ 多模态GPT时刻依赖数据工程突破，并且要分阶段解锁能力，优先实现“简单域高可控生成”是关键跳板

</aside>

观点1：静态图像在智能发展上存在根本局限，难以单独支撑人类级别的智能实现，因其理解、生成和对齐三大要素本质割裂。
观点2：实现视觉智能，短期内视觉-语言对齐（VL Model）是可行方向，但存在局限性。长期看视频数据与具身智能可能是视觉智能的终极解决方案。
观点3：遇到的困境，多模态模型中的理解模型和生成模型各自变强，但融合后无协同效应（1+1=2，未达到1+1>2）。此外，多模态训练导致文本性能下降的问题尚未解决，因为现有生成方法（如Diffusion或Auto Regressive）有根本性局限。
观点4：O1的出现为提升多模态模型的能力提供了新思路，核心在于将语言模型中成功实现的“反思驱动决策”和“网状思维链”范式引入视觉领域，突破传统单步生成的复杂度限制。但即使引入CoT机制，虽在特定任务上有提升，但动作空间设计无法迁移到新任务。
观点5：视觉生成CoT泛化差的一个原因是，视觉动作空间未被预训练充分覆盖，而预训练数据决定能力上限，RL只能优化预训练已有的模式，无法创造新能力。
观点6：多模态GPT时刻依赖于构建视觉CoT预训练语料技术的突破。此外，要分阶段解锁多模态模型的能力，优先实现“简单域高可控生成”是关键跳板。

AGI相关的观点：