OpenAI 史无前例的发布会：连续 12 天发布内容全解析

编者荐语：

在十字路口播客跟大聪明和杨远骋聊了一下 Open AI 12 天的发布会每天的内容挨个聊，哈哈，这是文字版

这一周的「十字路口」，我们邀请到歸藏和大聪明，一起来回顾 OpenAI 连续 12 天的发布会都发布了哪些新东西？除了让全世界惊叹的 o3 之外，还有哪些同样值得关注的新功能、新技术、新看点？

比如，大聪明认为，没有引起水花的 Day 9 发布特别值得注意：OpenAI API 的更新与 o3 的发布同等重要，因为它为未来 AI 应用的开发提供了关键基础设施。其中，结构化输出能力的持续迭代结果值得关注（从 36% 到 100% 的成功率提升），这将极大促进 AI agent，以及 AI 关联到现实世界的项目发展。

从第 1 天到第 12 天，我们将不仅逐一全面详实地介绍每天的发布，还会分享我们的亲身体验和见解。

插图由 Recraft 生成

🚥 OpenAI 12 天发布会纪录

🟢 Day 1: 满血 o1 ，ChatGPT Pro $200 会员，o1 Pro

🟢 Day 2: 基于 o1 的强化微调 RFT

🟢 Day 3: Sora

🟢 Day 4: ChatGPT Canvas

🟢 Day 5: 苹果全系接入 GPT

🟢 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音

🟢 Day 7: ChatGPT Projects

🟢 Day 8: ChatGPT Search 全量开放并优化体验，免费用户可用

🟢 Day 9: o1 API(支持 Function Call，并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持：PFT 偏好微调

🟢 Day 10: ChatGPT 的 800 电话、WhatsApp

🟢 Day 11: ChatGPT 桌面版可读取其他应用，且支持 o1 和 4o 高级语音

🟢 Day 12: OpenAI o3 正式发布！

👬🏻 嘉宾介绍

歸藏是「AIGC Weekly^[1]」 Newsletter 和「歸藏的 AI 工具箱」公众号的主理人，这是全中文互联网我认为最最值得订阅的 AI 资讯周刊，我追更了两年，几乎是每个周末的必修课，获益良多。

大聪明是「赛博禅心」公众号的主理人，也是第二次来做客十字路口。

在我的朋友圈中，这两位都全程追踪了 12 天的发布会动态，我相信他们不仅能及时提供最新信息，还能确保内容的高质量。

微信收听播客：

,1小时11分钟

小宇宙收听播客：

o3 的震撼发布：全新模型带来的技术突破与影响

🚥 Koji

好，我们开场的第一个问题想问二位「你们认为这 12 天的发布会，最值得关注的重点是什么？」

👦🏻 大聪明

大家好，我是大聪明。这个问题我先来回答。在我看来最值得关注的不是一个重点，而是两个。

第一个毫无疑问是 o3 的发布，它带来了一个完全遥遥领先的模型，虽然它很贵，回答一个问题可能需要 3500 美金，这个数值是「我拿尺子量出来的」。

第二个是它在发布期间隐藏了一个细节，在第九天左右提到了一个开发者更新。这个更新既包括了 Realtime 的 API 更新，也包括了对 Go 语言的支持。但最核心的是它允许在 o1 以及 Realtime 时进行结构化输出，这对明年的 AI agent 爆发埋下了伏笔。这两点是我认为非常重要的。

🚥 Koji

好，我们待会儿可以展开聊聊这两点：o3 的发布和在第九天针对开发者发布的一系列 API。

那藏师傅，在你看来最值得关注的重点是什么？

👦🏼 歸藏

我是歸藏，我觉得也是 o3 这个毫无疑问是最值得关注的。

因为说实话，OpenAI 一直在引领整个行业的方向。虽然它有些地方不是做得最好的，但在行业遇到困境时，它一定会给出一个新的路径。

前段时间不是一直说预训练到头了吗？在 o3 上我们就看到了突破性的结果。虽然在 o1 上还没有那么明显，没有让人那么坚信这个推理的进化方向，但在 o3 上我们看到了很明显的进步和进展。我觉得这对整个行业的信心，包括投资等方面的信心提振都是非常大的，这点还是很重要的。

🚥 Koji

可不可以用什么样的方式让大家感受一下 o3 到底有多强？

👦🏻 大聪明

一个最直接的例子就是有个程序员大神榜。在 Codeforces 上，这是一个比 LeetCode 更硬核的编程竞技平台。

很多非常优秀的程序员都会在里面参与。比如 OpenAI 现任的首席科学家，他在 Codeforces 的得分是 2655 分。而这一次的 o3 的编程得分是 2727 分，就是超过了 OpenAI 首席科学家一大截。如果放在现行的榜单里面，能够排到人类第 175 名，这是非常离谱的一件事情。

🚥 Koji

这个 o3 还有一个惊人的数字，它每完成一个单任务大概需要 3500 美金，相当于 2 万人民币。

我看到大聪明也在公众号写道，你去问 o3 一个问题：「9.09 和 9.11 到底谁是更大的数字？」，这个问题一问，2 万人民币就没了。这是不是也说明了背后还是可以在计算能力上继续创造奇迹？

👦🏻 大聪明

这里其实有个小细节，o3 在比照 o1 时，有两个版本。

一个是低算力版本，计算一次任务量大概需要 20 美金，可能未来我们用的就是这个版本。另一个是高计算量版本，也是更详细的模式，它的计算量是低计算量版本的 170 多倍。算下来就是 3500 美金。

从 3.5 美金到 3500 美金，大概是 1000 倍的增幅。

👦🏼 歸藏

所以他那个低计算量模式，我看他在 ARC 测试集上达到了 75% 多的结果，这个版本是 20 美金一次。这样算的话其实还好。

👦🏻 大聪明

我们看到那个 performance 表单时，会发现一个很有趣的事情：

正确率的百分比和消耗算力的指数是呈线性关系的。我们可以拉出一条近乎直线，就是计算量每增加十倍，我们的准确度就会增加一个固定的百分比。

🚥 Koji

10% 到 20% 之间。

👦🏻 大聪明

这件事情就意味着，如果我们要在这个测试集上达到 100% 的正确率，算力成本将是天价。

而这还不算完，在新的测试集里，我们看到 o3 的高计算量模式能够达到 88% 的正确率，但在第二版的 ARC 榜单里，它的正确率就只有 30% 了，还会被进一步压缩。

如果我们按照 ARC 测试集的标准来实现 AGI，即便是当前的计算成本可能都要在百万美金以上。

🚥 Koji

我也看到歸藏师傅在即刻上发了一条很长的内容，讲述 o3 带给你的一些感受。你还提到了一个非常强的说法，你说「可能在未来几年，我们会像记住 ChatGPT 的发布时间一样，记住昨天晚上 o3 发布的时刻。」

是什么原因让你对 o3 的发布这么兴奋，认为它是里程碑式的事件？

👦🏼 歸藏

其实这些是整理的一些大佬们的说法。

陶哲轩提到技术人本来能顶住大语言模型可能好几年，但现在一下被拉到了 25% 的成功率。包括前面提到的那些程序员竞技榜单，这代表了一个非常令人憧憬的未来。

从 o1 到 o3 只用了三个月就达到这样的进步。如果这个缩放定律继续下去，明年上半年我们会不会有 o4、o5？

如果 o4、o5 发布的时候，就不说其他领域，只谈数学和代码这两个领域，人类是不是就彻底无法追上它了？说实话代码其实是我们构建整个软件世界的基石，所以这会带来非常大的变化。

👦🏻 大聪明

这要补充一个关于 AGI 的信息，是上一次参加 Open AI 线下活动时 Mark 的分享。

这次 o3 发布时，开场就是 Mark 和 Sam Altman 一起分享的。Mark 提出了一个有趣的观点：

我们什么时候到达 AGI 取决于我们对 AGI 的定义。很快我们会到达我们所定义的 AGI，而那时我们会对 AGI 再有一个新的定义，然后不断追赶。

OpenAI 选取了 ARC 作为 AGI 评测的合作伙伴。ARC 提到了一个主流的 AGI 表述：能把大部分有价值的经济工作进行自动化的系统。如果以这个为标准，我们可以认为 o3 已经近乎达到了 AGI。但很快，随着我们达到这个 AGI 标准，我们又会有更高更新的标准。

🚥 Koji

这很有趣，就是关于 AGI 到底应该如何定义。之前大家一直没有达成过共识。在 ARC 的定义里，真正的智能是指能做有经济价值的工作。

这也意味着，AI 去安慰你的情感或者共情你的感受，这些并不在他们的 AI 定义范畴里。

👦🏻 大聪明

于是就给出了一个新的定义：

AGI 并不是指你有多少技能，因为技能是可以通过训练获得的，而是你有多会学习。

一个婴儿，按照我们最朴实的想法，我们天生认为他 / 她是 AGI。但是他什么技能都不会，他既不会编程，更不用说达到人类前 175 名的水平。但是他很会学习，他可以从零掌握语言，他可以学会用筷子，他会用哭声表达需求。

那么我们对于 AGI 的定义，是不是要从「有多少技能」变成「能够在之后自主学会多少东西」。

12 天发布会回顾：从满血版 o1 到实时视频通话

🚥 Koji

我们先快速回顾这 12 天发布了什么，然后再详细展开讨论每一天的内容。

第一天，满血版的 o1 上线。同时 ChatGPT 推出了争议很大的 Pro 会员，定价 200 美元一年。同时这天还发布了 o1 Pro。

第二天，发布了强化微调 RFT。

第三天，是正式版的 Sora 终于发布。

第四天，推出了对标 Claude Artifacts 的 Canvas 功能，这是一个交互上的变化。

第五天，比较平淡，主要是宣布苹果全系接入了 GPT。

第六天，临近圣诞节，发布了 4o 的实时视频通话和视频理解功能。它可以理解实时视频流，也可以理解你过去分享的屏幕，并根据视频流和屏幕内容来实时问答。因为圣诞节将至，还可以给圣诞老人打电话。

第七天，发布了 Projects 功能，这其实是 Claude 早就有的功能。

第八天，ChatGPT 的搜索功能全量开放，连免费用户都可以使用。做了很多细节优化，比如可以在浏览器地址栏直接搜索，还能搜索视频，同时把 4o 的实时语音接入了搜索。

第九天，发布了 o1 的 API，是一系列面向开发者的接口。待会儿我们请大聪明详细讲讲，因为他认为这和 o3 同样值得关注。

第十天，的发布稍显平淡，主要是支持给 ChatGPT 打电话，还推出了 WhatsApp 聊天机器人。

第十一天，是重申之前发布的 ChatGPT 桌面版，可以读取其他应用的内容。这样就不用总是截图发给 ChatGPT，而是可以直接让它看屏幕内容并回答问题。这里可以支持调用 o1 模型，也可以用 4o 实时语音对话。

第十二天，就是我们刚才讨论的重磅发布 o3，让全行业震惊。

我们回到第一天，当时很多人都是很期待的。我相信藏师傅和大聪明你们应该也熬夜看了发布会。可以谈谈当时看到 o1 Pro 和 ChatGPT Pro 200 美元会员时的感受吗？

👦🏻 大聪明

我最大的感受是：第一，他疯了吗？200 美元已经远超出大家的正常支付习惯了，真的会有大冤种去买吗？第二，我买了（大冤种），然后用了这个 o1 Pro，发现真香。

我经常会和 AI 或者说 ChatGPT 一起思考一些东西，比如项目怎么做、事情怎么规划。我在和 4o 对话时，基本上是我说一个东西，它就顺着我的话把内容补全，有时候补得还乱七八糟，我要纠正很多次。但用了 o1 Pro 后，它能在一次对话中就把我所需要做的事拆分得非常清楚。这样就省去了我一小时反复修订的时间，让我觉得太值得了。

🚥 Koji

我看到还有一个说法，说 200 美元的 Pro 会员之所以值得，是因为它有点像一个可以无限对话的、7×24 小时随时在线的「Her」——就像那部科幻电影一样，因为你可以实时地开始无限次和 4o 进行语音对话。

藏师傅在发布会的第一天有买到这个会员去使用吗？

👦🏼 歸藏

第一天我没有买这 200 美元会员，当时觉得确实是冤种才会买。

对于 o1 Pro，当时看他们测试时用了很多推理方式。我觉得这也是他们宣发的一个问题，就是他们选用的案例，当然要测试智能，用推理去做数学、做物理是可以的。

但你需要穿插一些普通用户真正会用到的案例，来体验它有多强。他们缺失了这个功能，导致我的感知是：好，你的物理和数学很强，但对我没用，因为我并不知道它在真正的开放域智能方面到底有多少提升。

但后来是因为为了 Sora 才去开的。我用了之后才发现，它对于开放域的问题，就像大聪明说的，在讨论问题时会给出很全面而且新颖的观点，并且回答很有结构性，所以这个确实挺值的。

🚥 Koji

可以讲一个具体的例子吗？就是你用 o1 pro 做了什么？

👦🏼 歸藏

我昨天第一次试用时，想写一个我与 AI 的年度总结。因为想说的事情特别多，就想让它给出一个大纲或一些可以写的方向。它给出的方向很值得参考。我们知道写东西时会遇到一个问题：你去找 4o 或者 Claude 的时候，它会像大聪明说的，要么重复你说过的事情，要么说一些很显而易见的事情，或者跟你的职业和经历完全无关的内容。

但 o1 Pro 不会这样，它真的给出了非常有建设性的意见，你完全可以按照它的大纲一步步写完。这个很厉害，但这种厉害是很感性的结果，你没法用语言描述它有多厉害。只有当你自己看到它的回答时，才会觉得：这就是我要的东西。

👦🏻 大聪明

这里我再补充一个信息，刚才提到如果你是 Pro 会员，可以无限使用它的高级语音模式。如果你用 API 的方式，高级语音模式平均每小时要消耗 50 美元。

假如你特别喜欢和 AI 聊天，只要聊够 4 个小时，这 200 美元就赚回来了。

🚥 Koji

说实话我真的和 4o 聊会有一种和真人聊的感觉。

👦🏼 歸藏

4o 的问题我觉得主要是两个：一个是响应不够快，另一个就是太贵。而且手机一开启就会很烫，可能是它的实现方式有问题。相比之下，谷歌的 Gemini 我就完全没有这些负担。

我和 4o 对话有时会有负担，一是因为它很贵，二是它看起来做得很重。但和 Gemini 聊天就没有这个负担。虽然它现在只会说英语，但我可以很随意地聊，而且它的响应比我们这边要快很多，可能是因为模型比较小。这也是我用下来觉得它很强的一个地方。

🚥 Koji

其实在这 12 天期间，Gemini 也发布了 2.0。虽然它受到的 PR 关注肯定不如 OpenAI，但我感觉它的口碑非常好。我们待会儿也会和大家分享一下我们几个人使用 Gemini 2.0 的体验。

好，我们来看第二天。第二天发布的是基于 o1 的一个强化微调，叫 RFT。可以请你们来给大家介绍一下 RFT 是什么吗？

👦🏻 大聪明

比如说你希望 GPT-4o 在说话时非常简明精炼，但它自己做不到，你就需要对它进行微调，给它非常多的样本，让它在之前的基础上进行学习。

o1 其实并不能完全归入传统的大语言模型范畴，它是一个大模型结合 Agent 的聚合物，只不过它把 Agent 这一块做到了大模型里面，它会自主反思。

对于传统意义上的微调就不再适用了。如果希望 o1 的输出有一定的倾向性，无论是思考方式还是输出样式，都需要对它进行新的微调。于是就有了一个针对 o1 的微调方式 RFT，它其实是原来 FT 的一个变种。它的目标对象从原来的大模型变成了 o1 这一种 Agent 形式的大模型。

🚥 Koji

明白。所以这一个发布其实当天也是没有引起特别多的关注。是因为其实它带给 C 端用户的体验不是那么直接。

👦🏻 大聪明

不仅是对 C 端用户不直接，对 B 端或开发者端也是如此。因为 o1 太贵了，正常情况下不会把它放到模型里，成本打不过来。而微调的成本还会比直接使用 o1 更高。所以做项目时，绝大多数情况下暂时还不会考虑使用它。

但从另一个层面来说，我们知道模型会不断降价。如果它的成本降到比较亲民的水平，同时你还有类似的需求，相信会有不少开发者对它进行微调。

Sora 正式发布：视频生成能力的突破与不足

🚥 Koji

到了第三天，在发布会开始前的 12 个小时，谣言就满天飞，说当晚要正式发布 Sora。那天确实有不少人熬夜守候。Sora 最终发布后，反响却是毁誉参半，对它的质疑声音甚至逐渐增多。

藏师傅，你刚才提到在 o1 和 o1 Pro 这两个满血版本发布时，你没有充值 200 元开通会员。但 Sora 却让你付费开通了会员，能否和我们分享一下你开通会员后使用 Sora 的体验？

👦🏼 歸藏

如果你是 Plus 会员（20 美元），只能生成最高 720P 的视频，而且仅限生成十几个视频就会用完额度。如果要用它做正式的视频创作，就必须充值 200 美元的会员。所以我最终选择了付费。

充值后我发现它有两个主要方面。一方面，它的功能确实很精细，比如故事版功能允许你连续输入多个视频，它会通过首尾帧或其他方式帮你做转场，将所有片段连接成一个完整视频。这在交互和功能性上确实做得很好。

说到模型本身，我们先看看模型的基础能力。以文生视频为例，它在质量表现最好时确实很出色，但这种高质量输出非常有限。可以说它比当前最好的视频模型也就好那么一点点，达到了一流水准。

视频模型的训练过程其实和语言模型类似，需要先有个文生视频模型，再基于图像做图生视频微调。但在图文转视频方面，它的微调明显不足，给人一种仓促完成的感觉。如果他们认真训练，不会是现在这个状态。我们对图片转视频最基本的要求就是能动起来，不管效果好坏。但现实是 90% 的情况下，你输入一张图，等待几分钟，花费了几块钱的积分，最后输出的还是一张静态图片。

这种情况令人非常恼火，这已经不是服务质量或模型性能的问题，而是一种非常恶劣的商业行为。你宣传的功能完全不可用，还收取如此高昂的费用，这本质上就是欺骗用户。

🚥 Koji

哇，这是一个非常严重的批评。

👦🏼 歸藏

是的，这确实是个诚信问题。你为了使用这个功能支付了 1500 元人民币开通月度会员，但实际上这个功能几乎完全无法使用。

🚥 Koji

大聪明，你有什么想要补充的吗？

👦🏻 大聪明

虽然我不是专业的视频创作者，但它的无限循环和故事版这两个功能对我来说确实是个惊喜。

🚥 Koji

谈到 Sora 这次发布，还有一个值得注意的细节。在前几天我们和 Monica Founder 肖弘录播播客的时候，他提到这次 Sora 没有发布 API，这在 OpenAI 的历史上是很罕见的。

这似乎表明，在今年对 OpenAI 来说，开发应用的重要性似乎超过了提供 API。

👦🏼 歸藏

我觉得核心目的有两个：获取数据和提高市场占有率，占据用户认知。

所以对于其他公司来说，开发应用一直是最重要的方向。因为我们都知道，单纯发布 API、售卖 token 是没有壁垒的，也无法形成规模效应。你一定要做成产品，通过独特的功能留住用户，扩大用户规模，让用户形成对产品的依赖，这才是正确的路径。

Canvas 与 Artifact：两种不同的产品设计理念

🚥 Koji

说到大模型厂商需要开发应用、增加功能来提高用户粘性，我们正好可以聊聊第四天发布的 Canvas 功能。不过值得一提的是，Claude 在半年前就推出了 Artifact 功能，当时获得了很多好评，确实能显著提升生产效率。

关于这一点，请二位介绍一下 Canvas 是什么，如果可以的话，也请比较一下它与 Artifact 的区别。

👦🏻 大聪明

我来解释一下。先说 Artifact，它其实是这样工作的：当大模型生成 HTML 或者带 JS 的前端代码时，它可以在 Claude 界面中直接渲染出这个页面，让你实时看到效果。同样，如果生成的是 Markdown 内容，也能直接在浏览器中渲染并预览。这个功能对于检查前端代码的效果非常有帮助。

而 ChatGPT 的 Canvas 功能最初是从它的代码解释器功能演化而来。比如你让它写一个解决鸡兔同笼的算法，它不仅会在代码框中展示代码，还能直接运行并显示结果，背后其实是运行着一个 Python 服务器。后来这个功能得到了扩展，除了运行代码外，还能展示各种文本内容，并且支持对文本进行编辑修改。

🚥 Koji

我看到过网上一个很有趣的使用案例：一个用户让 ChatGPT 为他的论文做批注，并特别要求用哲学系教授的风格。最终在 Canvas 中呈现的效果很像 Word 文档的批注格式 —— 原文在主区域显示，批注内容则在侧边栏中展示，并能准确指向原文中被评论的具体段落。

这个功能确实让人惊喜。相比之前简单地请大模型修改文章，这种交互方式在体验上有了很大的提升和进步。

👦🏻 大聪明

OpenAI 最近确实低调发布了很多功能，没有开发布会，也没有任何新闻露出，这点很有趣。

比如你刚才提到的文章批注功能，其实是基于 OpenAI 上个月悄悄推出的 Predicted API（或称预测模式）。这个功能可以让你输入一篇文章，告诉它修改要求，它就能快速标记出需要修改或订正的地方，并给出修改建议。

我认为 Canvas 中的批注功能很可能就是运用了这项一直在线但未正式发布的技术。

🚥 Koji

对，这个其实还真的挺有用的。我之前一直在用 Notion AI，会在 Notion 里面请它直接帮我改东西。但它也就是直接改了就改了。不像是请一个同事或一位律师帮你改文件时，他会保留修订记录，然后你自己去决定要不要接受这一点，拒绝下一点。不过现在 OpenAI 也可以做到这一点了。

👦🏻 大聪明

然后这里面还有一个很有趣的点，就是因为它只是修订，而不是重写。它可以快速处理一长篇的内容，并且保持你的主体结构不变。这个功能除了在修订文章之外，在修改代码上面也非常有用。

很多时候你让它修改代码时，因为你的代码会和其他的老代码做交互，一旦动了结构，有时候会非常麻烦。如果它只是修改某些参数，并且能同时处理这些参数之间的关联，就会非常实用。这一块也是预测性输出的一个用法。

🚥 Koji

藏师傅有没有什么要补充的？

👦🏼 歸藏

负责开发这个功能的人在 10 月 4 号分享过一些内容，讨论了她对这个功能的核心思考。

她提到了两个关键点：一是尽量不让用户去思考什么时候该触发、该用什么功能，而是让 AI 来做决定。这是一个展示性的方案，用更友好的方式去展示一些不适合在对话中呈现的内容，比如长文本、文案和外部渲染等。

而 Canvas 那个作者的想法则不同，她想要打造 AGI 的终极界面。在她的想象中，这个终极界面是一个空白画布，用户可以随意调整。

她的核心理念是希望将其打造成一个创作伙伴，去帮助和指导创作。这也解释了为什么前面提到的批注功能如此重要 —— 它完美符合创作伙伴的定位。我们可以参考现实中同事间的协作方式：同事会评论你的作品，给出建议，而你可以选择接受或拒绝。在代码 review 时也是如此，可以做一些标注或注释，由你决定是否采纳。

它本质上是以创作伙伴的形式设计的功能，这与前面提到的展示性方案有着根本的区别，因此衍生出了很多不同的功能。比如说 canva 其实做得很重，很多功能都在模拟一个创作伙伴应该对内容做的事情。而 artifact 的愿景其实很简单，就是为对话中不易展示的内容提供更合适的展示形式。这是导致两者功能设计差异的核心原因。

实时视频与项目管理：AI 交互方式的创新与发展

🚥 Koji

我觉得这其实反映了产品哲学的不同。说到这里，2025 年有一个非常值得期待的点，就是在传统 chatbot 交互之外，大家会发现很多新的交互方式。这种创新已经在很多地方开始萌芽了，不只是在 AI coding、Cursor，也不只是 Davin 带来的 agent 模式，还包括 Canvas、Recraft 的文生图和图生图，以及 Recraft 无限白板这样的图片编辑模式。这些产品创新已经多到有点数不过来了。

上周和 Monica 肖弘录播客时，他提到 2024 年有点 boring，因为感觉还是 ChatGPT 3.0 发布的 chatbot 这样的交互形式的线性外推。但 2025 年特别值得期待的一个原因，就是各种与 AI 交互的用户体验方式已经在如雨后春笋般涌现。

到第五天，感觉像是给苹果站台，就像一个公关发布会，发了一篇 PR 文章告诉大家可以在苹果设备上用 ChatGPT 了。这个没什么特别好讲的。

到了第六天，是关于 4o 的实时视频通话和视频理解功能，包括和圣诞老人的通话。这个在社交媒体上引起了一些小水花，因为很多博主会用 ChatGPT 去和圣诞老人聊天开玩笑。

你们看到第六天的发布后，有什么感受或想法吗？

👦🏼 歸藏

高级实时语音是一个非常极致的功能，也是最能让人感受到 AI 智能的方式。

普通用户可能不理解 o1 或 o3 有什么意义，觉得「我也用不着」。但对于实时语音通话来说，普通用户会觉得「这个东西真的好厉害」，因为它模拟了科幻电影中才存在的场景。所以在小红书或抖音上，只要发布使用实时语音做的一些事情，比如有研究生用它来识别化学药剂，让它指导自己配实验，或者是和 GPT 谈恋爱这类内容，都很容易引起普通用户的共鸣，真的很戳人。

🚥 Koji

对，包括练习口语、模拟面试，这些功能都变得很实用。我自己也试了一下，因为同期 Gemini 2.0 也发布了类似的功能，可以打开摄像头，直接举一个东西问它「这是什么」，识别率还蛮准的。我甚至指着墙上的一张海报问它，「这是一个电影节的海报，你能告诉我这是哪一年什么电影节的海报吗？」它也都能给出相应的猜测。

👦🏻 大聪明

我补充一点信息，这一天发布的两个主要卖点是视频通话和屏幕共享。

先说视频通话，如果我们回看 OpenAI 过去一年的对外投资和合作，会发现这家公司涉及了很多线下和硬件相关的场景。如果 ChatGPT 能够很丝滑地教你煮咖啡、做化学实验，这个功能就可以迁移到他们之前投资的那些硬件产品中，这就会变成一个相当「王炸」的功能。我们会发现这里面的技能点和技术路线是一致的。

比如说化学实验，现在是用摄像头去对着化学设备。如果这个摄像头和 GPT 直接内置在化学仪器里，再和机械臂结合，就可能会变成自动化的流程。

再说共享屏幕，大家可能记得去年微软发布了一个叫做 Copilot 的品牌。其中一个很有趣的点是，你可以和电脑相互对话，让电脑自主完成一些任务。这需要把页面信息传给助手，这个功能据传可能被搁浅了。但在 ChatGPT 这次的发布中，它可以监控其他应用的信息。虽然我不清楚它的监控程度，但这可能是与苹果的合作，能够获取较深层的信息。在移动设备上，这就变成了一个额外的辅助工具。比如炉石玩家可以边打游戏边问它下一张牌该怎么出。

后面在第 11 天还会发布一个客户端功能，也是类似的。它可以理解你屏幕上的内容，不管是编程、游戏，还是聊天，理论上都可以给你提供回复建议和指导。

🚥 Koji

我们待会儿还会聊到，在后面第 11 天的时候，他还发布了一个客户端功能，也是类似的。它可以读取和理解你屏幕上的内容，不管是编程，还是你在玩什么游戏，甚至是你在和别人聊天，它都可以给你一些如何回复的指导，理论上都是可以实现的。

👦🏻 大聪明

这种做法其实说白了，就绝了很多 Copilot 产品的路子。

🚥 Koji

这让人想到 AI 创业的经典困境：当 OpenAI 这样的大模型公司发布新功能时，你会同时感到兴奋和绝望。

第七天发布的是项目功能，你可以把一个项目里的各种文件全部放到一个文件夹里，然后与这个文件夹进行对话。这样模型就有了知识库和上下文，可以给出更好的回复。这其实是 Claude 在半年前就有的功能，OpenAI 现在才加上。

这个功能做出来之后，二位看到一些有趣的用法吗？

👦🏼 歸藏

具体的预训练或模型训练细节我可能不太了解。但这个功能和刚才说的 artifact 功能有个特点：在推理过程中，或者说在模型训练过程中，我们需要对语料进行分析和归类，识别高质量语料，然后将这些合成数据用于再训练。

这里有个核心问题，就是很多内容都是开放性的，语言模型输出内容的对话价值不太好验证，如果想拿去再训练，可能会有一些问题。这两个功能在某种程度上解决了这个问题。

比如说 project，我放在 project 里的所有文件以及对话，基本都是一个主题的。如果对话人数多，我们通过其他数据筛选方式也能筛出来。这就解决了优质对话归类的问题，同时还附带一些现实中可能的非合成数据语料。这对模型训练或数据收集很有帮助。

artifact 也是一样。Claude 的 artifact 实际上在分享，我只需分析分享的数量和点击量，就能判断大语言模型生成代码的质量，它与代码质量或对话质量是正相关的。那么在代码这一层面或长文本层面，我就能筛选出来作为语料，这样就减少了筛选成本。对于模型训练本身或数据收集都有非常好的正向作用。我们可能会在很多其他优秀的 AI 项目中看到越来越多这种设计。

🚥 Koji

我看到官方有一个很好的例子 —— 把求职者的各种简历、社交媒体链接等资料都放到了同一个项目里面。通过这样的方式，模型就可以更好地了解你这个人是谁。有了这些信息，你就可以让 OpenAI 为你提供一些职业上的建议，或者和你进行模拟面试。

👦🏻 大聪明

去年年底时，OpenAI 更新了隐私协议，其中提到作为 ChatGPT 用户，你与 OpenAI 的所有交互数据 —— 无论是在 ChatGPT 中还是与 ChatGPT 的社交媒体互动，都可能被 OpenAI 用作训练语料。随后发布的 GPTs(当时我们称为 OpenAI agent)也体现了这一点。

正如藏老师所说，这让用户能更方便地使用 GPT，同时在享受便利的过程中，也在为 OpenAI 做数据标注。这是一个非常巧妙且不会引起太多反感的做法。

🚥 Koji

大家都在追求数据飞轮。在工具应用没有壁垒、难以形成社交飞轮的情况下，如何提升用户粘性成为关键。

到了第八天，ChatGPT 全量开放了搜索功能，搜索界面和体验都有了多项优化。二位体验下来感觉如何？

👦🏼 歸藏

我对 ChatGPT 的搜索功能没有太多感知（笑）。它的搜索质量和结果在移动 AI 搜索产品中并不出众，如果有其他选择，我会选择直接用 Google。

第九天的关键更新：结构化输出与 API 的重大突破

🚥 Koji

让我们跳到第九天。这天 OpenAI 发布了面向开发者的各种 API。大聪明在一开始时就特别提到了这一点。请大聪明给我们介绍一下第九天发布了什么，以及你为什么认为它如此重要。

👦🏻 大聪明

总的来说，从官方说明看，他们发布了：

OpenAI 的正式版 API(此前是预览版)。
Realtime API(高级语言交互 API)降价且提供了 SDK，不用再自己写兼容。
新增了一种称为「偏好微调」的新型微调方式。

为什么这很重要？2023 年我们有了 agent，今年彭博社预测 AI agent 将爆发，我们会慢慢感知到这点，包括扣子的成长。这些 agent 成长背后有个重要技术革新 —— 结构化输出。举例说，让家里的灯调到一半亮度，灯只能接收如 JSON 格式的结构化信息(如「19 号灯，亮度 50%」)，AI 在这里可以充当翻译器。

去年 GPT-4 0613 版本时，官方还没有标准的结构化输出方法。通过提示词技巧实现结构化输出时，将灯光从 78% 调到 50% 的成功率仅有 35.9%。今年 4 月这一成功率提升至 75.3%，5 月达到 86.4%。

8 月 6 号更新带来了标准的结构化输出接口，在严格模式下输出质量能达到 100% 成功率。这就是为什么 8 月 6 号后，我们看到 Cursor agent 版本等各类 agent 工具如雨后春笋般出现。

o1 是强大的思考工具。如果想让它生产的内容作用于机械控制还是 IoT 控制，就需要结构化输出。第九天发布前，o1 没有结构化输出功能，或需要用提示词技巧实现，但不稳定。现在它支持了标准的结构化输出，可以 100% 将高质量思考用于设备控制。

Realtime API 也支持了结构化输出。o1 需要较长思考时间，但很多场景(如关灯)不需要。Realtime API 延迟低于 300 毫秒，说完 0.3 秒内就能关灯。另外，Realtime API 每小时消耗 50 美元，这意味着产品化时需要找到每小时能赚 200 美元以上的应用场景。

每小时要赚 200 美元以上的线上场景，而且只能通过语音聊天，这样的场景确实很难想象。不过在 Realtime API 中，他们蒸馏出了一个 mini 模型，成本降到了每小时 5 美元。虽然每小时赚 200 美元的产品找不到，但每小时赚 20 美元的场景是存在的，比如说给海外学生提供在线功课辅导。正因如此，Realtime API 具备了商业实践的可能性。

新发布的 SDK 也很重要。并不是所有开发者都擅长处理语音模型，特别是之前用的 WebSocket 方案并不是很多人熟悉的。有了新的 SDK 后，你可以直接调用模型，而且还支持很多人熟悉的 WebRTC 方案，这让 Realtime API 的商用变得更加容易。

这次更新还藏着一个没有明说的特性。以前我们说「端到端模型」，指的是语音到语音，中间不经过文字。而这次更新带来了「多端到多端」模型。它能同时接收你的文件信息、文字信息、语音信息、视频等多模态信息，同时输出可以包括文字、function call、语音。有趣的是，它输出的文字和语音虽然有关联，但不一定完全一样，这意味着它不是顺序构建，而是同步构建的。

比如说我问 AI「为什么三个和尚没水喝」，它能同时做三件事：展示动画，用鼠标指向大和尚说「这是大和尚，他不想挑水，想让小和尚挑」，再指向小和尚说「这是小和尚，他不想挑水，想让大和尚挑」，同时还能讲述故事背景。

在第九天发布前，这种交互是不可能实现的。这些内容官方并没有在发布会上详细说明，但如果仔细阅读文档，你会发现这才是第九天发布的核心。

🚥 Koji

在回顾这 12 天的内容时，有个提醒：OpenAI 很擅长营销，这 12 天的内容有不少是为营销而发布的，它并不一定代表最主要的技术进步和核心实力。另一方面，OpenAI 也身处激烈的竞争环境中，所以有些最强大的功能可能并未公开，他们还可能通过这 12 天的发布来影响竞争对手的思考和节奏。

因此，除了关注公开发布的内容，我们也要多留意那些未被公开的部分，说不定能发现一些有价值的洞察。

👦🏻 大聪明

另外一个发布的是偏好微调。偏好微调是指我可以定义 AI 的输出偏好，告诉它我喜欢什么样的表达方式。这是一个更进阶的功能 —— 我不仅可以告诉 AI 我喜欢什么，还可以告诉它我不喜欢什么。这有点像设置黑名单和白名单，我不需要在提示词里逐一说明「不能这样」「不能啰里八嗦」「不能说冗余的话」「要使用什么样的语言」，而是可以直接将这些偏好微调进模型，从而提升它的稳定性。

这些改进同时作用，奠定了未来一年 agent 爆发的可能性。

🚥 Koji

所以 2025 年是非常值得期待的一年。各行各业应该都能看到各种 agent 实现更好的落地应用。此前很多应用难以落地，最终实现的效果不够理想，无法取代足够多的人工工作。

虽然第九天是一个低调的发布，但经过大聪明的解读，发现它对整个应用生态的价值是巨大的。

👦🏻 大聪明

这里还有一个有趣的现象。在出现优化输出之前，我们与 AI 的所有交互都是通过 chatbot 的形式 —— 即便 AI 完成了很多任务，最终还是以聊天方式呈现结果。但如果它配备 function cal，再结合各种 IoT 设备和其他技术，就能够与线下设备和商业世界建立起非常紧密的关联。

实时交互新体验：语音通话与屏幕阅读功能

🚥 Koji

第九天是一个非常硬核的日子。而到了第十天，则变成了非常有趣的一天 —— ChatGPT 推出了电话服务，发布了一个 800 号码供用户与其通话。不过这项服务只提供了 15 分钟的体验时间，让用户能简单感受一下与 AI 通话的未来场景。

第 11 天发布的其实是一个已经上线一段时间的功能，并非新功能 —— ChatGPT 的桌面版可以读取其他应用的屏幕内容，并基于这些内容与用户进行交互。

👦🏼 歸藏

由于大陆用户使用的具体问题，我还没有体验过这个功能，客户端也一直在尽量避免使用。不过我有一个疑问 —— 因为没有使用过，我不清楚它是读取整个屏幕还是仅读取特定内容。比如说在使用 Xcode 或者 VS Code 时，它是读取整个编辑器窗口的所有内容，还是只读取屏幕中被选中的部分。这两种方式的意义差别很大。

🚥 Koji

我理解它应该是可以读到内容的。

👦🏻 大聪明

它可以读取三个层级的信息：

首先是截屏内容，这是它一定能读取的。
其次是它能够直接读取软件里面的内容。
第三是在读取过程中，它会额外关注用户划线或鼠标选中的部分，以及这些选中内容的上下文信息。这意味着它不仅知道用户选中了什么，还能理解选中内容的完整语境。

在 ChatGPT 的 Mac 客户端中，当你把鼠标悬停在横幅上时，可以看到具体会发送哪些内容给 ChatGPT。比如在编写代码时，如果你选中了某一部分，当鼠标悬停时，你能看到它会发送 VS Code 中特定文件的信息，同时它还会标注哪些信息需要重点关注。这些权限请求信息是可以查看的。

🚥 Koji

聊到第 12 天，也就是我们开篇讨论的第一部分 —— o3 的震撼发布。现在回顾这 12 天的内容，最值得期待的有两个方面：

首先是 o3 的发布。目前 o3 还处于内测阶段，可以申请但通过概率较低。据预测，明年 1 月可能会推出一个精简版的 o3 mini。
其次是针对开发者发布的一系列 API，这对应用开发和 agent 生态的繁荣可能带来难以想象的重大影响。各位工程师和创业者可以特别关注其中带来的新机会。

回顾完这 12 天的内容，想请教在场的各位，在这次发布会上还有哪些值得一提的，或者没有被多数人注意到的小细节？

👦🏻 大聪明

这次发布会有两个有趣的细节：

第一个是关于展示布置 —— 发布会第一天桌子上或架子上会摆放一个玩偶，第二天摆两个，以此类推，到最后一天摆放了 12 个，这是个颇具童趣的安排。

第二个细节是每次发布时都会附带一些引人遐想的信息，比如关于 AGI 到来的时间等。这些信息更像是留给观众的悬念，引发大家思考和猜测。

🚥 Koji

好像是给这个媒体留一些标题（笑）。

👦🏻 大聪明

对，Open AI 通过这种方式制造传播热点确实很有趣。我想额外给你一些信息，虽然不确定你了解多少，但你可以自行判断。我特意留下了一些看似内部文件的内容。

🚥 Koji

我觉得有一个值得关注的小细节，就是华人在 OpenAI 内部的重要性。在 o3 发布时，新出现了一位华人 Hongyu Ren，他是北大校友。另外据传在 o1 mini 项目中，有三位主要的华人负责人，除了 Hongyu Ren，还有 Kevin 和佳慧。

藏师傅，你有注意到其他值得补充的细节吗？

👦🏼 歸藏

华人在这 12 天的表现很突出，我觉得华人的比例甚至超过了白人和其他族裔的总和。这确实是 OpenAI 目前一个显著的变化。

另外，昨天看到有人提出一个有趣的问题：为什么在 AI 领域，印度人的洞察力似乎不那么突出？更准确地说，不是数量多少的问题，而是几乎没有印度人的声音。

👦🏻 大聪明

前段时间我在新加坡参加 OpenAI 的线下活动，现场见到了发布会上的 Mark，还见了很多 OpenAI 的新老朋友。在交谈中，我和一些人讨论了一个问题：谁可能会是 OpenAI 的有力竞争者？我原本以为是 Claude，因为国内都在说 Claude 击败了 OpenAI，但我得到了一个出乎意料的答案。

答案是 Google。

虽然这并不代表 OpenAI 的观点，但为什么是 Google 呢？主要有两点：

第一，每个模型都有其生命周期，能否在半年到一年内收回训练模型的成本是一个重要问题。要收回成本，就需要有足够多的客户愿意付费。Google 拥有自己的办公软件全家桶，有着深度集成的生态环境，不愁销路。

而 Claude 目前绑定在 Amazon Cloud 上，Amazon Cloud 主要提供云服务，难以快速扩展市场。因此，即使 Claude 发展更快，也未必能及时收回成本。相比之下，Google 和 OpenAI 都有这个能力。

2024 年的 AI 突破与 2025 年展望：从工具到 Agent 的演进

🚥 Koji

这让我想到不同观点的碰撞。广密最近被问到七家巨头中最看好谁时，他提到了亚马逊。因为他认为 Anthropic 和亚马逊之间的合作非常健康。从亚马逊的财报也能看到，AI 带来的收入实现了 100% 的增长。基于 Anthropic 再加上 AWS 的云服务，形成了良好的协同效应。所以亚马逊的未来发展很值得期待。整体来看，2025 年可能会有很多风云变幻，会发生许多令人兴奋的事情。

因为这期可能是今年的最后一期，特别想请教二位：在 2024 年底回顾这一年，你们印象最深刻的 AI 领域技术或产品突破是什么？可以先藏张师傅回答这个问题。

👦🏼 歸藏

我觉得最重要的两个突破：首先是 Claude 3.5 的代码能力突破，尤其是前端代码；其次是 Sora 的发布和多模态输入输出的结合。

感谢 OpenAI 在 Sora 发布时分享了详细的架构细节，让我们看到发展路径，这促成了后续一系列进展，包括 FLUX 等图片模型，以及海螺、Pika 这类更优秀的视频模型。另外，多模态输出让视频、音频等多模态内容在 Agent 层面的生产成为可能。

这两个突破结合起来，预示着明年我们将看到更多自动化的内容生成。AI 产品此前一直受限于工具属性，难以构建壁垒，难以让更多普通人使用。明年可能会带来重大变化——在内容生产方面，更多普通人能享受到 AI 生产的个性化内容。

关于 Claude 的第二个突破是代码能力，特别是前端代码能力的突破性进展。比如我们提到的 Cursor 或 Davin，为什么在十月份之后表现更好，就是因为大聪明刚才说的结构化输出这些能力。另外就是，Claude 3.5 在 GSM8k 等指标上的代码能力真正变得实用可靠了。

我有一个深刻感触：

我的一位完全不懂开发的设计师朋友，在我向他展示了 bolt、v0 这些工具后，有了惊人的改变。他以前对开发望而生畏，认为无法掌握。但在我演示后的第二天，他就向我展示了一个自己开发的应用——一个普通话转粤语的工具。

这个工具做得很好，实现了他的所有设想，而他确实完全没有开发经验。这种变化对普通人或有创造力的人来说意义重大。明年我们会看到更多类似案例，就像今年有花叔的小猫补光灯，还有赵纯想的作品。明年可能会涌现更多案例，这真正解放了人的创造力。

🚥 Koji

2024 年即将过去，人们对 AI 进展的感受很不一样。有人认为 AI 进步惊人，已能自动化处理一半以上的日常工作；也有人觉得 AI 没有特别大的进展，始终停留在聊天界面的形态。

我认为两种看法都有道理，但如果只使用 Kimi、豆包、ChatGPT 和 Claude 的网页版，确实可能感受不到太大变化。然而，如果使用过 Cursor、Devin 或 Recraft 等新工具，相信大家能真切感受到 AI 过去一年的巨大进步。

在「十字路口」，我们一直强调一个关键词：「AI 时代的积极行动者」。衡量积极行动的重要指标就是主动尝试各种新工具。因此特别推荐大家花时间体验这些新工具，亲身感受 AI 的快速发展。

说到 2024 年最令人印象深刻的 AI 突破，我认为是年底接触到的 Devin。它让我看到了一直以来谈论的 Agent 应该呈现的样子，第一次感觉 AI 真正成为了一位像同事般的 Agent，而且是一个在智商、情商、管理能力、项目规划能力等方面都很出色的 Agent。因此我很期待明年能看到不仅是在 AI 编程领域，Agent 的持续进步，也希望看到类似的 Agent 交互模式能扩展到各个领域。大聪明也提到，Agent 的进步背后是 Function Calling 成功率的提升。

说到这里，也想问大聪明，2024 年最令你印象深刻的 AI 突破是什么？

👦🏻 大聪明

我的视角更偏向项目方面。每当拿到新的 AI 产品，无论是 cursor 还是其他之类的，我都会思考它调用了哪些 API，是如何串行或并行调用的，然后将其解构，看看最终套了怎样的外壳。

其实我们看到的各种炫酷的 AI 应用，都可以拆解成几个 OpenAI API 的组合方式。

这时候，要预见接下来几个月会有哪些新玩法，一个很巧妙的方法是每周关注 OpenAI API 的更新变化。比如刚才提到的 Function Calling 从 30% 的成功率提升到了 100%，这个突破能带来哪些改变？我习惯每周都会仔细阅读一遍文档。

总结今年 OpenAI 各种 API 的变化和应用，都围绕着一个核心：结构化输出。去年三月，OpenAI 发布第一版结构化输出方案，当时并不是以 API 形式提供，而是内测方式——你给 OpenAI 一个样例文件，在特定调用情况下，它能给出结构化的响应。

到了去年 6 月，OpenAI 发现了 Agent 这个可落地场景，找了很多做 Agent 开发的伙伴，同时表示会进一步迭代结构化输出方案。去年 11 月 6 日，OpenAI 低调发布了 JSON Mode，预示着结构化输出成为主流重点。

今年我们发现，无论是实时交互的 API，还是思考的 API 等等，都围绕着结构化输出成长。每个产品落地时，都对应着结构化输出达到新的标准。

在现在的范式中，结构化输出从「你给我一个信息，我给你一个文件」，变成了「你给我一堆信息，我同时给你一堆文件」，让你能同时处理多个任务，而每项任务的成功率都从 30% 提升到了 100%。这使得 AI 能够处理更大更复杂的交互。

因此，2024 年最令我印象深刻的突破是：

结构化输出从一个精巧的玩具，转变成真实影响现实世界、影响开发者生态和项目生态的核心因素。这个因素虽然隐藏在背后，却并不为大众所知。

🚥 Koji

我们聊完 OpenAI 这 12 天的发布会，也不得不提在这期间，Google 也放出了大招，发布了 Gemini 2.0。我自己使用后感到很震撼。无论是其 Flash Thinking 版本模型的反馈质量，还是它展示整个思考过程的方式都令人印象深刻。

思考过程的文本量甚至超过了最终答案的文本量，你能看到这个智能体是如何聪明地认真对待和拆解每个问题，一步步思考给出答案。而且速度很快，几秒内就能给出回应，比 o1 发布时快了很多。同时它的多模态体验也非常流畅丝滑。

想请教二位，在体验 Gemini 2.0 时，有什么特别的感受或者可以和大家分享的信息？

👦🏼 歸藏

我的深刻感受是它的多模态输入输出能力。刚才大聪明提到 OpenAI 也有这个功能，但 OpenAI 还没有地方可以真正体验。而 Gemini 在视频理解方面确实做到了更进一步。我测试时给它一个 20 分钟的无字幕视频，让它转录内容并整理成文章。模型一次就完成了整个过程，还能自动润色，直接输出成果，这个能力很惊人。

另外，我之前参考海辛做了一个拆解测试：给它一个一分钟的 AI 生成视频，这是 AI 创作者制作的多个分镜视频，一分钟内可能包含十几个分镜。它能输出每个分镜的起止时间，以及每个分镜的具体内容。这样我就能基于成熟的 DiT 视频模型快速复刻出这个视频。