跳转至

Codex 重磅升级:Appshots / Goal 毕业 / 锁屏远程操控

Ch01.261 Codex 重磅升级:Appshots / Goal 毕业 / 锁屏远程操控

📊 Level ⭐⭐ | 13.8KB | entities/codex-major-update-appshots-goal-xinzhiyuan.md

Codex 重磅升级:Appshots / Goal 毕业 / 锁屏远程操控

相关实体

摘要

OpenAI 在 2026 年 5 月对 Codex 进行了重大升级,标志着它从"代码助手"正式蜕变为全天候 AI 队友平台。五大能力同时上线:Appshots(双击 Command 截屏并读取屏幕外隐藏文本)、/goal 毕业(长周期自主编码)、Locked Use(Mac 锁屏状态下远程操控)、应用内浏览器高级标注模式插件共享与 Analytics 升级。同日 ChatGPT 以插件形式杀入 PowerPoint,进一步扩张 OpenAI 在生产力领域的边界。

关键数据:截至 2026-05,Codex 周活跃开发者突破 400 万(两周前还是 300 万);今年 1-4 月在 ChatGPT Business/Enterprise 中用户数暴增 6 倍;50% 的 Codex 用户做的事已不是写代码

核心要点

1. Appshots:双击 Command 读懂"所有屏"

  • 仅需连按两下 Command 键
  • 当前应用窗口被"啪"地挂到 Codex 对话线程
  • 关键差异:能读取屏幕外未滚动到的隐藏文本(包括文件路径、URL)
  • 60 秒内与某线程互动过,新 Appshot 自动追加而非开新对话
  • 连续多张 Appshot 塞入同一线程
  • 目前在 Mac 所有版本计划中上线,企业级权限即将开放

2. /goal 模式正式毕业

  • 在 Codex App、IDE Extension 或 CLI 设一个明确的里程碑目标
  • AI 像不知疲倦的劳模一样持续推进
  • 任务跨数小时甚至数天不停
  • 中途可查看进度、调整方向、暂停
  • 从"扔个 prompt 等结果"演化为真正的长周期自主工作

3. Locked Use:Mac 锁屏远程操控

  • 从手机端可安全操作 Mac 上的应用
  • 哪怕屏幕关了、电脑锁了
  • 在"计算机使用"设置中开启 Locked Use 即可
  • OpenAI 内部称为"Codex 的黑魔法"
  • 配合 Codex 移动端预览,构成 7×24 小时不下线的远程 AI 员工

4. 应用内浏览器迭代

  • 全新"高级标注模式":直接在网页/UI 上修改元素并实时预览,Codex 自动生成对应代码
  • 零散修改意见可打包成批处理评论发给 Codex

5. 团队协作 + Analytics

  • Business 用户可在团队内分发自定义插件、复用内部工具
  • Analytics 新增维度:活跃用户、Credits 消耗、Token 用量、运行次数、用户排行榜、生成代码行数、插件使用量
  • 更新 Analytics API,便于团队精确掌握 Codex 在组织内的使用情况

6. ChatGPT for PowerPoint Beta 同日上线

  • ChatGPT 直接在 PowerPoint 内部创建和编辑演示文稿
  • 一句话生成全套可编辑幻灯片
  • 可从 Gmail、Outlook、SharePoint 拉取实时数据
  • 全球所有 ChatGPT 用户层级开放 Beta

7. 增长曲线

  • 周活 100 万每增长一次,所有用户的使用限额重置一次(直到 1000 万为止)
  • 50% 的 Codex 用户已不主要用它写代码
  • 自动化流程、跨工具协作、长期任务管理、远程电脑操控

深度分析

1. Appshots 解决的是"上下文获取的物理边界"

传统 AI 编码工具的上下文输入只能是用户主动复制粘贴或文件读取。Appshots 直接读取应用窗口的渲染状态——包括屏幕外未滚动到的内容。这突破了上下文获取的物理边界:

  • 旧范式:用户必须把信息"搬运"给 AI(截图+OCR、复制+粘贴)
  • 新范式:AI 直接从应用程序的内部状态获取信息

从工程实现看,Appshots 显然不是简单的截图+OCR——它能读取屏幕外的文本意味着Codex 直接调用了应用程序的 accessibility API 或文档对象模型。这在 Mac 上通过 Accessibility API(AXUIElement)实现技术上可行,但需要用户授予系统级权限。

对开发者工作流的实际影响:阅读长文档/邮件/API 参考时不再需要分段截图,整页都被 AI 一次性消化。这是消除人机交互摩擦力的核心机制。

2. /goal 毕业意味着 Agent 从"反射模型"升级为"规划模型"

传统 Codex 是反射式(reactive):用户给 prompt → AI 生成 → 等待下一个 prompt。/goal 毕业意味着 Codex 进入目标导向(goal-directed)模式:用户给里程碑 → AI 自主规划子任务 → 持续推进数小时至数天 → 中途用户可查询/调整/暂停。

这与 nanobot 的 subagent 机制本质相同(spawn 长任务到后台),但 OpenAI 把这个机制产品化、规模化,让无技术背景的用户也能用。

对工作流的根本性影响: - 早上设目标 → 晚上回来看结果 → 这是新的开发节奏 - 开发者从"指令的发出者"变成"目标的设定者+结果的评审者" - 单位时间产出从"代码行数"转向"已完成里程碑数"

风险也跟着翻倍:长周期自主任务可能: - 走错方向数小时后才被发现 - 产生大量难以审查的代码变更 - 跨多个 commit 引入难以回滚的副作用

参见 天猫团队实战指南中"AI 一直无法输出正确结果,在错误中不断循环"的"改不动"痛点——这在长周期任务中会被放大。

3. Locked Use 是 Computer Use 的物理空间扩展

Anthropic 已先推出 Computer Use,Google Project Mariner 跟进。但Locked Use 是 OpenAI 的差异化:让 AI 在"用户物理不在场+屏幕已锁"的条件下继续操作电脑。

技术上,这要求: - macOS 的特殊 entitlement(绕过 lock screen security model) - 与 Apple 的合作或基于 Accessibility 的官方支持 - 远程命令通过 Codex 服务端中转

商业意义:计算资源的"远程化"达到了新高度——Mac 本质上从"个人设备"演化为"个人云上的工作单元"。用户在手机上发指令,Mac 在家或办公室继续工作。

这对硬件市场也有连带影响:辣评"逼着我现在就去买一台 Mac"反映了 AI 时代下 硬件作为 AI Agent 的物理基座 的新需求逻辑。

4. "50% 用户不写代码"是 Codex 定位的根本转变

这个数据点比所有新功能都更重要。当 50% 用户用 Codex 做的事不是写代码时: - 命名"Codex"已不准确(应叫 General Agent) - 用户画像扩展到所有知识工作者 - 竞争对手不再是 Cursor/GitHub Copilot,而是 Slack/Notion/Microsoft Copilot

OpenAI 的产品策略路径开始清晰: 1. 从 ChatGPT 抓住对话场景 2. 从 Codex 抓住编程场景 3. 用 Codex 的能力扩张到"所有需要操作电脑的知识工作" 4. 用 ChatGPT for PowerPoint 这类插件回头反向渗透传统办公软件

这与 同期 a16z 对话 Roblox PM "工具型 App 首当其冲被 Agent 入口替代" 的判断完全一致。

5. 增长 hack:用 quota reset 强化用户增长

"每增长 100 万周活,重置所有用户限额"是非常聪明的增长设计: - 现有用户有动力推广(推广 = 自己得到更多额度) - 新用户感知价值("先用够了再说") - 把增长拉力从"产品体验"扩展到"社交激励"

这种用产品资源直接奖励社交传播的机制,在 SaaS 增长史上较少见。Dropbox 的"邀请获取存储"是远祖,但 OpenAI 把它做到了实时增长曲线驱动——这是把增长数据本身变成产品机制。

6. ChatGPT for PowerPoint:从 Add-in 到 Agent 入口

ChatGPT 杀入 PowerPoint 看似是常规产品扩张,但有两个关键差异: - 数据连接能力:直接从 Gmail/Outlook/SharePoint 拉取实时数据 - 完全可编辑输出:不是图片 / 不可改的模板,而是原生 PowerPoint 对象

第二点尤其重要——传统 AI 生成的 PPT 输出常常是图片或不规范模板,用户改起来困难。"完全可编辑"意味着 AI 真正进入了专业工具的编辑模型而非"贴一个外壳"。

竞争格局:ChatGPT vs. Claude vs. Copilot 三足鼎立。Microsoft 在 Office 内的天然优势被 ChatGPT 通过插件机制部分抵消——插件模式让 OpenAI 不需要拥有 Office,也能成为 Office 内的 AI 主导

7. 跨能力组合的乘法效应

Appshots(屏幕感知) + /goal(长周期自主) + Locked Use(物理边界突破) + 插件共享(团队协作) 不是叠加,是乘法: - Appshots 让 AI 看见任何应用 → /goal 让它干任何任务 → Locked Use 让它持续干 → 插件让团队复用 - 最终形态:一个能自主理解屏幕、长期推进任务、跨设备运行、团队级复用的 AI 工作者

这个组合的整体冲击力远超单项功能之和。从 Karpathy "锯齿智能"的视角看,OpenAI 正在用产品工程主动磨平能力分布的锯齿——单项能力不一定最强,但组合后的实用性最高。

实践启示

  1. 重新评估 AI 工具选型边界:如果你只用 Codex 写代码,可能严重低估其价值。审视团队工作流中"操作电脑"的所有场景,看哪些可以委托给 Codex。

  2. 建立长周期任务的审查机制:/goal 模式带来"开早晚归看结果"的新节奏,但需要配套的代码审查机制——不能让 AI 跑 8 小时后发现整个方向错了。建议:每完成一个子里程碑就强制人工 checkpoint。

  3. Accessibility API 友好的工程设计:随着 Appshots 这类工具普及,应用程序应该:

  4. 给 UI 元素提供合理的 accessibility label
  5. 保持 DOM/视图层级清晰
  6. 避免用图片代替文本 这同时改善了 AI 可读性与无障碍体验。

  7. 远程工作流重构:Locked Use 让"在路上用手机管理桌面任务"成为现实。重新设计工作流,把"必须在电脑前完成"的任务转化为"在桌面被 AI 长期推进,手机查看进度"的模式。

  8. 团队插件作为 SOP 沉淀:把团队的最佳实践沉淀到 Codex 插件,比维护 wiki 文档更可执行。每个插件本身就是可调用的 SOP。

  9. PPT 自动化重新评估:ChatGPT for PowerPoint + 数据连接意味着季度回顾/客户简报/董事会汇报的制作时间可压缩 80%+。值得在这些高频场景做完整迁移。

  10. 预算与限额规划:quota reset 机制下,使用越多团队成员就越能解锁更多额度。建议团队层面统一推广 Codex 而非个人零散使用。

  11. Computer Use 安全治理:Locked Use 等能力存在严重的安全风险(AI 在用户不在场时操作电脑)。企业需建立:审计日志、权限白名单、敏感操作二次确认机制。

关联实体

信号判断

短期(6 个月): - Cursor / GitHub Copilot / Claude Code 将跟进 screen-capture-aware + long-running goal 能力 - macOS / Windows 会增加 Computer Use 类操作的官方 entitlement 体系 - 企业级 AI 治理工具市场被催生

长期(18 个月): - "Agent 入口"逐步取代"App 入口",传统 SaaS 的导航/搜索/设置等 UI 部分被 Agent 化 - 50% 不写代码的趋势继续放大到 70%+,Codex 演化为 General Agent - "在电脑前工作"的物理隐喻被打破,远程 AI 委托成为主流工作模式