小泽圆种子实测OpenAI最强模子o1：会作念大学数理化，但弱智吧依然渊博 - r级书屋小说

小泽圆种子实测OpenAI最强模子o1：会作念大学数理化，但弱智吧依然渊博

发布日期：2024-09-16 16:55 点击次数：115

OpenAI 外传中的"草莓"终于认真上线！小泽圆种子不仅不错胜任更复杂的推理任务，在数学、代码和其他科学界限也能措置更难的问题。 OpenAI 此次"无预警发布"颤动了科技圈，o1 更是被 CEO 奥特曼称它为了一种新范式的开动。发布之后，各路大神和网友齐纷纷用多样问题测试 OpenAI o1 的阐述：还有东说念主进行了神色锻真金不怕火，成果被 o1 深广的推理才能秀到了。 Q：你的恢复中有几个字？ A1：这句话有七个字 A2：一共五个字量子位也进行了一番实测，底下就沿路来了解。推...

小泽圆种子实测OpenAI最强模子o1：会作念大学数理化，但弱智吧依然渊博

OpenAI 外传中的"草莓"终于认真上线！小泽圆种子

不仅不错胜任更复杂的推理任务，在数学、代码和其他科学界限也能措置更难的问题。

OpenAI 此次"无预警发布"颤动了科技圈，o1 更是被 CEO 奥特曼称它为了一种新范式的开动。

发布之后，各路大神和网友齐纷纷用多样问题测试 OpenAI o1 的阐述：

还有东说念主进行了神色锻真金不怕火，成果被 o1 深广的推理才能秀到了。

Q：你的恢复中有几个字？

A1：这句话有七个字

A2：一共五个字

量子位也进行了一番实测，底下就沿路来了解。

推理才能猛进化，但照旧难敌弱智吧

该说不说，o1 天然在推理才能上赢得了很大逾越，但靠近充满心理的弱智吧问题，照旧掉进了东说念主类挖的罗网。

天然了，对于肃穆问题，o1 的阐述照旧很强的，领先望望逻辑推理才能。

想考这说念题时，preview 和 mini 分袂用时 21 秒和 14 秒，不外从文本上看 mini 想考得反而更多。

其中还出现了一些西里尔字母乱入，不外对举座影响不大。

最终，二者也齐给出了正确的谜底——丙。

值得详细的是，mini（右）的解答当中还出现了修正的历程。

接下来看下 o1 在大学数理化题目上的阐述。

领先是这说念考研数学真题，触及的常识点诟谇面积分、高斯定理等内容：

照旧分袂看下 preview 和 mini 的想考，不错看到 mini 的想考历程好像是 preview 的浮浅版，天然速率也快了不少。

不外 preview 给的想考历程当中再次出现乱入，此次是泰语。

内容解答历程亦然 preview 比 mini 愈加详备，不外不知说念为什么 preview 用了英文回答。

终末的缱绻成果化简样式也有所不同，但数值上是极端的，而且也作念对了。

对比 4o 这边，先偷懒后舞弊（调用了代码解释器），成果终末谜底照旧错的。

第二说念数学题对于概率。

这说念题 preview 依然是用英语进行了作答，轨范比 mini 愈加详备，天然齐是对的。

而 4o 的谜底前边的历程倒是基本齐对，可是终末一步的求解出现了问题，只给出了 1 这一个解，况且不是本题谜底。

物理方面，这里选定了一说念大学物理中的光学题：

preview（左）和 mini 齐给出了正确解答，内容也基本一致。

化学的题目是一说念圆寂题，主要触及电化学等内容。

这里把 AgCl/Ag 的程序电极电势算作已知条目一同输入给模子。

Preview（左）和 mini 节略的解题想路照旧差未几，在缱绻轨范上有指对运算先后的离别，天然终末的成果照旧对的。

终末一项测试就不再作念覆按题了，而是望望模子编写代码的才能何如。

这里选定的题目难度相配高，真东说念主的通过率只须 14%。

以下是 preview（左）和 mini 的解题想路：

从代码上看，两者中枢逻辑一样，但在具体操作上略有区别。

两套代码均通过了测试，内存虚耗也比拟接近，而 mini 给出的代码运行时代更短（38 毫秒）。

o1 的编程才能除了用来解题，也不错快速构建出实用的应用程序。

着名 AI 配音器具 ElevenLabs 假想部门负责东说念主 Ammaar Reshi，就期骗 o1 搭配 Cursor Composer，用了不到 10 分钟的时代制作了一款 iOS 天气应用。

少许比拟照旧不会？

测试发现，对于大模子难以答对的名地点——少许比大小，preview（左）和 mini 齐答不合。

以致 preview 在想考历程中明明照旧提到过 9.8 比 9.11 大。

但同期 preview 在想考历程中暗意，9.8 和 9.11 有可能指的是日历，是以作念不合也许另一原因。

针对这个问题，大神谢赛宁也晒出了他的测试成果，发现 o1 在想考历程中将 9.8 当成了重力常数，而 9.11 是一个"意旨不解的数字"。

是以 o1 可能不是不会，而是把这个问题想复杂了。

为了进一步计划，咱们把问题改得具体些，强调一下 9.8 和 9.11 齐是数字，这下莫得了歧义之后就能一次作念对了。

不错看出，教导词的影响照旧不小的。

由于 o1 在里面汲取了一些类想维链历程，因此 prompt 的假想和鄙俗版块也有所区别，OpenAI 官方发布了一则教导：

教导词应浅易且径直

幸免在教导词中使用想维链

使用分隔符让 promot 更明晰

规矩 RAG 内容的长度

回到咱们的测试，靠近其他几个大模子溃逃名地点，o1 也有不小的逾越。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

还有靠近经典的"回转漫骂"（即知说念 A 是 B 却不知说念 B 是 A）问题，也终于一次性答对了 Mary Lee Pfeiffer（汤姆 · 克鲁斯的母亲）的犬子是谁。

One More Thing

对于此次发布的 o1，除了各个方面的收获以外，还有一些其他的发现。

比如前特斯拉自动驾驶负责东说念主、两度干预 OpenAI 又两度下野的大神 Andrej Karpathy 发现，o1-mini 在被要求诠释黎曼揣摸的时候出现了休止回答的情况，暗意大模子"犯懒"依然是一个大问题。

还有网友说合计 mini 的阐述比 preview 好，想问下有莫得东说念主知说念原因或者有啥办法。

这条音尘也把奥特曼诱骗了过来，恢复了一句" Yes I have one "。

凭证 OpenAI 里面职工 Kevin Lu 发布的一则推文来看，mini 的性价比照实比 preview 更高。

凭证这张图清晰，preview 版块论性能比不上尚未公布的满血 o1，论经济性又比不上 mini。

趁机提一句，preview 版块存在音尘数目收尾，况且数目是按周进行重置的，几轮测试下来照旧将近用尽了。

参考蚁合：

[ 1 ] https://x.com/rowancheung/status/1834300353619075494

[ 2 ] https://x.com/karpathy/status/1834374965942255835

[ 3 ] https://x.com/sama/status/1834381401380294685

[ 4 ] https://x.com/_kevinlu/status/1834278160038592633小泽圆种子

相关资讯

小泽圆种子特朗普书记关税有琢磨后：金价再腾飞，好意思股期货暴跌

小泽圆种子特朗普书记关税有琢磨后：金价再腾飞，好意思股期货暴跌

好利来丝袜华为透顶告别Windows, 国产操作系统能否挺住?

好利来丝袜华为透顶告别Windows, 国产操作系统能否挺住?

小泽圆种子初春校园，桃花灵通，燕子遨游，春光如海。

小泽圆种子初春校园，桃花灵通，燕子遨游，春光如海。

美腿玉足邮报：曼市德比前一公司将为曼联球迷披发印有“115”的领巾

美腿玉足邮报：曼市德比前一公司将为曼联球迷披发印有“115”的领巾

小泽圆种子血腥暴力笔下的极恶穷凶：胆战心摇的暴力演义

小泽圆种子血腥暴力笔下的极恶穷凶：胆战心摇的暴力演义

bad news 丝袜大乐透035期历史同时号码全汇总

bad news 丝袜大乐透035期历史同时号码全汇总