https://zhuanlan.zhihu.com/p/1913377304173872183
多模态模型相关的观点:
<aside>
💡
简略总结:
纯静态图像学习不Work
→ 多模态模型(Vision-Language Model)可行
→ 但发现多模态模型中的理解模型和生成模型融合后无协同效应
→ O1为多模态模型提供CoT机制的思路,突破传统单步生成的复杂度限制
→ 实验发现多模态模型CoT的泛化能力有限,原因是视觉动作空间未被预训练充分覆盖,而RL只能优化预训练已有的模式
→ 多模态GPT时刻依赖数据工程突破,并且要分阶段解锁能力,优先实现“简单域高可控生成”是关键跳板
</aside>
- 观点1:静态图像在智能发展上存在根本局限,难以单独支撑人类级别的智能实现,因其理解、生成和对齐三大要素本质割裂。
- 观点2:实现视觉智能,短期内视觉-语言对齐(VL Model)是可行方向,但存在局限性。长期看视频数据与具身智能可能是视觉智能的终极解决方案。
- 观点3:遇到的困境,多模态模型中的理解模型和生成模型各自变强,但融合后无协同效应(1+1=2,未达到1+1>2)。此外,多模态训练导致文本性能下降的问题尚未解决,因为现有生成方法(如Diffusion或Auto Regressive)有根本性局限。
- 观点4:O1的出现为提升多模态模型的能力提供了新思路,核心在于将语言模型中成功实现的“反思驱动决策”和“网状思维链”范式引入视觉领域,突破传统单步生成的复杂度限制。但即使引入CoT机制,虽在特定任务上有提升,但动作空间设计无法迁移到新任务。
- 观点5:视觉生成CoT泛化差的一个原因是,视觉动作空间未被预训练充分覆盖,而预训练数据决定能力上限,RL只能优化预训练已有的模式,无法创造新能力。
- 观点6:多模态GPT时刻依赖于构建视觉CoT预训练语料技术的突破。此外,要分阶段解锁多模态模型的能力,优先实现“简单域高可控生成”是关键跳板。
AGI相关的观点:
- 观点1:AGI中Long Context问题的解药不是延长Token窗口,而是重构记忆架构,用分工协作模拟人脑,用动态隔离实现高效推理。
- 观点2:实现AGI的必经之路是让模型像人类一样从多维度反馈中主动学习。
- 观点3:当前行业所称的"Agent"多属第二级(Rhythm),本质是工具链的智能串联,而非真正的Agent。真Agent需等待自主学习和在线学习算法突破。