o1-preview论文分析 | 文雅的疯狂的学习笔记

type

status

date

slug

category

password

icon

论文链接：[2409.19924] On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability o1-pewview模型据说在某些测试方面已经达到了人类博士的水平，在大部分测试中超过原先OpenAI最厉害的GPT4o模型

但我一直没怎么用o1-preview模型，因为这个模型还在测试阶段，一个星期才能用四五十次。光是想自己测试o1模型的能力都不够用，索性就不用了，等正式版出来再说

看到这个论文，就想靠它解下这个模型，以下是论文总结和我的一些看法

与先前不同的是，这个模型并不是在“大力出奇迹” 的思路上做的（Scaling-Law,通过不断增加训练的参数量增加模型性能）。原理上主要是利用了Chain-of-Thought (CoT)，思维链技术

论文讨论了o1模型在规划任务(planning tasks)方面的能力，主要从三个方面评估：可行性(feasibility)、最优性(optimality)和泛化性(generalizability)

研究过程中通过比较o1-preview，GPT4o和o1-mini三个模型在六个任务中的表现测试o1-preview的能力：调酒，搭积木，操控机械臂抓东西，给地板瓷砖涂色，搭建建筑结构，更换轮胎

测试结果是o1-preview和o1-mini模型在所有测试维度中都超过GPT4o模型，如图所示：

研究结论是o1-preview模型在执行任务时，约束遵循和记忆管理方面优于GPT4o。但是随着任务复杂程度的增加，o1-preview在这两个方面的性能也会慢慢下降（没啥新颖的）

论文提出的改进方向：

个人觉得这些都能通过做一个像AutoGPT那样的Agent实现，所以我一直觉得o1-preview其实就是在做AutoGPT

看完论文又有了一个新想法是，我觉得想要模型更好地实现记忆管理，约束遵循等，要让它具有像人类一样的感官。只有有了视觉，听觉，触觉等感官机器人才能在执行任务的过程中更好的确认任务状态，执行过程中的细节。单纯在语言的抽象世界中执行任务，模型永远脱离不了人类单独完成任务

这已经涉及具身智能了，理论上讲还非常遥远。但是让模型自己去操作电脑，完成一些主要在电脑上完成的任务还是有希望尽快实现的。现在已经有一些像open-interpreter的优秀项目在往这个方向研究，前两天Claude也宣布即将推出类似的功能

而且单纯靠电脑实现的任务还挺多，我的工作基本上就是在电脑上完成的，偶尔用用手机。实现一个能够自己操作电脑完成任务的Agent现阶段还是非常有意义的

文雅的疯狂