OpenAI全新发布o1（草莓）模型 -人类为王的时间越来越短了？

今天一大早的，草莓模型更新了，直接进入官网可用。

进入老奥的X上看下更新内容。

嗯，PLUS和Team用户可用。

再来看看是干嘛的。

看起来就是个推理更好的模型，那能到什么程度呢？在上面老奥的信息上可以看到一部分。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。

代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

相比来说4o大家应该已经很熟悉了，我一直用的也是4o，就是那个全球出个任意模型都会先说“我们超过了GPT4o”，结果啪啪打脸那个模型。

再看和4o的对比，就能发现o1的恐怖了，而这个模型能达到如此成就，基于的原理是Self-play RL。

又蒙圈了吧，来听老金我给你解释。

自我博弈强化学习（Self-play RL）是一种重要的机器学习方法，通过模拟与自己或多个代理的对战进行学习，提升策略的优化。

就比如，曾经轰动天下的AlphaGo。

它是能通过“自我锻炼”而成长的恐怖模型，它不再需要人类给它提供数据，而是拿自己的数据训练自己。

还蒙圈？没事儿我再提俩赫赫有名的游戏！Dota2和王者荣耀！来看看王者觉悟的设计。

这回明白没明白你为什么连人机都打不过？哈哈，是的，它是一种基于自我学习的AI。

这么强大的模型，目前上线的分为了2种，o1预览版和o1 mini，o1-mini就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。

但是限制也来了，毕竟物以稀为贵，这个使用成本还蛮苛刻的，o1预览版每周30条，o1-mini每周50条。

对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。

API价格呢，更是比起现在动辄百万Token1人民币的设定来说，贵了不是一点儿半点儿，即使是mini版本。

老金我作为Chatgpt的深度爱好者，第一时间试了下。

根据OpenAI给出的最佳写法：

现看下4o和o1的对比

我试了下刚哥这两天爆火的Claude卡片提示词，。

发现了这个不一样的过程，它现进行了自我推理，像不像我们之前写的结构化提示词？也就是它自动进行了CoT（思维链）行为。

并且加入了经典的意图识别。

然后我输入了AI俩字，它显示无法生成SVG图片，但是总比之前好了很多，至少它理解了我想做什么，这估计是目前Beta版本的限制，还有很多功能尚未实现，但是推理还是拉满了。

再来看俩经典问题，看起来确实想的很清楚，哈哈哈哈。

但是在mini中，经过一轮提醒，依然扑街。

再进行个推理问题，我用Preview试了两次，结果是对了1次，错了1次。

综上总结一下：

新模型加入了COT逻辑，善于进行推理，正确质量远大于4o。

但价格昂贵，且限制数量根本不够用，整体上看起来更像是吴恩达老师说的agentic workflow。

对于质量而言，通过一些案例作证，它还并没有我们想象当中那么强大，但它毕竟还是OpenAI新动作的排头兵，最强大的o1模型还没见到。

综上所述，对于科技进步的期待是要有的，对于他们的答卷也要理性看待，希望大家不要被蒙蔽双眼。

让我们，拭目以待。