【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她

【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她

文章图片

【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她

文章图片

【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她

文章图片

【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她

你应该知道的:
OpenAI o1 , 它甚至已经不叫chatgpt了!
O1是一个使用强化学习训练的新大型语言模型 , 用于执行复杂推理 。 o1 在回答之前会思考——在回应用户之前 , 它可以产生一个长的内部思维链 , 从而大幅提升推理能力 。
OpenAI o1 在编程竞赛问题(Codeforces)中排名第 89 百分位 , 在美国数学奥林匹克(AIME)的选拔赛中位列前 500 名学生 , 在物理、生物学和化学问题基准(GPQA)上超过了人类博士水平 。
O1目前面对PLUS用户都是限制次数的!根据 OpenAI 的文档 , 目前 o1-preview 每周是限制 50 条消息 , o1-mini 每图 50 条 。 所以 , 坤叔的建议很明确:别再用弱智吧的弱智问题浪费O1的智商了!
一个好的问题本身 , 也说明你是否有真正的思考 。
以下 , 我们来展示以下问法 , 很多问法 , 你可能根本没想过(为便于中文用户理解 , 我打开了同步翻译):
医学问题(直接根据症状诊断):





编程问题:



数学:



所以 , 如果你没法给O1上难度 , 本质上是你对问题的理解还不够 。
关于编程 , O1的提升非常大 。

相比于GPT-4o 获得了 808 的 Elo 评级3 , 这在人类竞争者中排名仅11%的位置 。 o1获得了 1807 的 Elo 评级 , 表现优于 93%的竞争者 。



在数据分析、编码和数学等推理密集型类别中 , o1-preview 比 GPT-4o 更受欢迎 。 然而 , 在自然语言任务上 , o1-preview 并不受欢迎 , 这表明它并不适合所有用例 。
也就是说 , 别拿O1来写文章 , 也别用它来玩弱智吧的文字游戏 , 真的没必要浪费O1 。 (O1非常贵!不值得!你那些文章不值得用它写?。 ?
OPENAI也说了 , 这里面最有价值的东西 , 是思维链 。
【【O1指南-01】O1不是chatgpt,别再用弱智吧问题问她】上面这图展示了思维的展开 。
o1 模型引入了推理标记 。 模型使用这些推理标记进行“思考” , 分解对提示的理解并考虑多种生成响应的方法 。 生成推理标记后 , 模型会将答案生成为可见的完成标记 , 并从其上下文中丢弃推理标记 。 每个步骤的输入和输出标记都会被保留 , 而推理标记则会被丢弃 。
不过 , 具体的实现 , OPENAI就不说了 。
他们非常明白的表示:模型必须有权以未改变的形式表达其思想 , 因此我们无法将任何政策合规或用户偏好训练到思维链上 。 我们也不想将未对齐的思维链直接展示给用户 。
不过 , 社区是不那么认为的 , 已经有人通过设计AGENT框架 , 通过思维链的AGENT , 实现了强于GPT4O的推理AGENT(智能体) 。
所以 , 应对不断升级的强大模型 , Prompt engineering , 本质上是如何发问和如何与AI沟通的技能 , 仍然具有非常大的重要性 。



    推荐阅读