小泽圆种子 实测OpenAI最强模子o1:会作念大学数理化,但弱智吧依然渊博

OpenAI 外传中的"草莓"终于认真上线!小泽圆种子 不仅不错胜任更复杂的推理任务,在数学、代码和其他科学界限也能措置更难的问题。 OpenAI 此次"无预警发布"颤动了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开动。 发布之后,各路大神和网友齐纷纷用多样问题测试 OpenAI o1 的阐述: 还有东说念主进行了神色锻真金不怕火,成果被 o1 深广的推理才能秀到了。 Q:你的恢复中有几个字? A1:这句话有七个字 A2:一共五个字 量子位也进行了一番实测,底下就沿路来了解。 推...


小泽圆种子 实测OpenAI最强模子o1:会作念大学数理化,但弱智吧依然渊博

OpenAI 外传中的"草莓"终于认真上线!小泽圆种子

不仅不错胜任更复杂的推理任务,在数学、代码和其他科学界限也能措置更难的问题。

OpenAI 此次"无预警发布"颤动了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开动。

发布之后,各路大神和网友齐纷纷用多样问题测试 OpenAI o1 的阐述:

还有东说念主进行了神色锻真金不怕火,成果被 o1 深广的推理才能秀到了。

Q:你的恢复中有几个字?

A1:这句话有七个字

A2:一共五个字

量子位也进行了一番实测,底下就沿路来了解。

推理才能猛进化,但照旧难敌弱智吧

该说不说,o1 天然在推理才能上赢得了很大逾越,但靠近充满心理的弱智吧问题,照旧掉进了东说念主类挖的罗网。

天然了,对于肃穆问题,o1 的阐述照旧很强的,领先望望逻辑推理才能。

想考这说念题时,preview 和 mini 分袂用时 21 秒和 14 秒,不外从文本上看 mini 想考得反而更多。

其中还出现了一些西里尔字母乱入,不外对举座影响不大。

最终,二者也齐给出了正确的谜底——丙。

值得详细的是,mini(右)的解答当中还出现了修正的历程。

接下来看下 o1 在大学数理化题目上的阐述。

领先是这说念考研数学真题,触及的常识点诟谇面积分、高斯定理等内容:

照旧分袂看下 preview 和 mini 的想考,不错看到 mini 的想考历程好像是 preview 的浮浅版,天然速率也快了不少。

不外 preview 给的想考历程当中再次出现乱入,此次是泰语。

内容解答历程亦然 preview 比 mini 愈加详备,不外不知说念为什么 preview 用了英文回答。

终末的缱绻成果化简样式也有所不同,但数值上是极端的,而且也作念对了。

对比 4o 这边,先偷懒后舞弊(调用了代码解释器),成果终末谜底照旧错的。

第二说念数学题对于概率。

这说念题 preview 依然是用英语进行了作答,轨范比 mini 愈加详备,天然齐是对的。

而 4o 的谜底前边的历程倒是基本齐对,可是终末一步的求解出现了问题,只给出了 1 这一个解,况且不是本题谜底。

物理方面,这里选定了一说念大学物理中的光学题:

preview(左)和 mini 齐给出了正确解答,内容也基本一致。

化学的题目是一说念圆寂题,主要触及电化学等内容。

这里把 AgCl/Ag 的程序电极电势算作已知条目一同输入给模子。

Preview(左)和 mini 节略的解题想路照旧差未几,在缱绻轨范上有指对运算先后的离别,天然终末的成果照旧对的。

终末一项测试就不再作念覆按题了,而是望望模子编写代码的才能何如。

这里选定的题目难度相配高,真东说念主的通过率只须 14%。

以下是 preview(左)和 mini 的解题想路:

从代码上看,两者中枢逻辑一样,但在具体操作上略有区别。

两套代码均通过了测试,内存虚耗也比拟接近,而 mini 给出的代码运行时代更短(38 毫秒)。

o1 的编程才能除了用来解题,也不错快速构建出实用的应用程序。

着名 AI 配音器具 ElevenLabs 假想部门负责东说念主 Ammaar Reshi,就期骗 o1 搭配 Cursor Composer,用了不到 10 分钟的时代制作了一款 iOS 天气应用。

少许比拟照旧不会?

测试发现,对于大模子难以答对的名地点——少许比大小,preview(左)和 mini 齐答不合。

以致 preview 在想考历程中明明照旧提到过 9.8 比 9.11 大。

但同期 preview 在想考历程中暗意,9.8 和 9.11 有可能指的是日历,是以作念不合也许另一原因。

针对这个问题,大神谢赛宁也晒出了他的测试成果,发现 o1 在想考历程中将 9.8 当成了重力常数,而 9.11 是一个"意旨不解的数字"。

是以 o1 可能不是不会,而是把这个问题想复杂了。

为了进一步计划,咱们把问题改得具体些,强调一下 9.8 和 9.11 齐是数字,这下莫得了歧义之后就能一次作念对了。

不错看出,教导词的影响照旧不小的。

由于 o1 在里面汲取了一些类想维链历程,因此 prompt 的假想和鄙俗版块也有所区别,OpenAI 官方发布了一则教导:

教导词应浅易且径直

幸免在教导词中使用想维链

使用分隔符让 promot 更明晰

规矩 RAG 内容的长度

回到咱们的测试,靠近其他几个大模子溃逃名地点,o1 也有不小的逾越。

比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。

还有靠近经典的"回转漫骂"(即知说念 A 是 B 却不知说念 B 是 A)问题,也终于一次性答对了 Mary Lee Pfeiffer(汤姆 · 克鲁斯的母亲)的犬子是谁。

One More Thing

对于此次发布的 o1,除了各个方面的收获以外,还有一些其他的发现。

比如前特斯拉自动驾驶负责东说念主、两度干预 OpenAI 又两度下野的大神 Andrej Karpathy 发现,o1-mini 在被要求诠释黎曼揣摸的时候出现了休止回答的情况,暗意大模子"犯懒"依然是一个大问题。

还有网友说合计 mini 的阐述比 preview 好,想问下有莫得东说念主知说念原因或者有啥办法。

这条音尘也把奥特曼诱骗了过来,恢复了一句" Yes I have one "。

凭证 OpenAI 里面职工 Kevin Lu 发布的一则推文来看,mini 的性价比照实比 preview 更高。

凭证这张图清晰,preview 版块论性能比不上尚未公布的满血 o1,论经济性又比不上 mini。

趁机提一句,preview 版块存在音尘数目收尾,况且数目是按周进行重置的,几轮测试下来照旧将近用尽了。

参考蚁合:

[ 1 ] https://x.com/rowancheung/status/1834300353619075494

[ 2 ] https://x.com/karpathy/status/1834374965942255835

[ 3 ] https://x.com/sama/status/1834381401380294685

[ 4 ] https://x.com/_kevinlu/status/1834278160038592633小泽圆种子



相关资讯