锁屏远程操控¶

Ch01.261 Codex 重磅升级：Appshots / Goal 毕业 / 锁屏远程操控¶

📊 Level ⭐⭐ | 13.8KB | entities/codex-major-update-appshots-goal-xinzhiyuan.md

Codex 重磅升级：Appshots / Goal 毕业 / 锁屏远程操控¶

摘要¶

OpenAI 在 2026 年 5 月对 Codex 进行了重大升级，标志着它从"代码助手"正式蜕变为全天候 AI 队友平台。五大能力同时上线：Appshots（双击 Command 截屏并读取屏幕外隐藏文本）、/goal 毕业（长周期自主编码）、Locked Use（Mac 锁屏状态下远程操控）、应用内浏览器高级标注模式、插件共享与 Analytics 升级。同日 ChatGPT 以插件形式杀入 PowerPoint，进一步扩张 OpenAI 在生产力领域的边界。

关键数据：截至 2026-05，Codex 周活跃开发者突破 400 万（两周前还是 300 万）；今年 1-4 月在 ChatGPT Business/Enterprise 中用户数暴增 6 倍；50% 的 Codex 用户做的事已不是写代码。

核心要点¶

1. Appshots：双击 Command 读懂"所有屏"¶

仅需连按两下 Command 键
当前应用窗口被"啪"地挂到 Codex 对话线程
关键差异：能读取屏幕外未滚动到的隐藏文本（包括文件路径、URL）
60 秒内与某线程互动过，新 Appshot 自动追加而非开新对话
连续多张 Appshot 塞入同一线程
目前在 Mac 所有版本计划中上线，企业级权限即将开放

2. /goal 模式正式毕业¶

在 Codex App、IDE Extension 或 CLI 设一个明确的里程碑目标
AI 像不知疲倦的劳模一样持续推进
任务跨数小时甚至数天不停
中途可查看进度、调整方向、暂停
从"扔个 prompt 等结果"演化为真正的长周期自主工作

3. Locked Use：Mac 锁屏远程操控¶

从手机端可安全操作 Mac 上的应用
哪怕屏幕关了、电脑锁了
在"计算机使用"设置中开启 Locked Use 即可
OpenAI 内部称为"Codex 的黑魔法"
配合 Codex 移动端预览，构成 7×24 小时不下线的远程 AI 员工

4. 应用内浏览器迭代¶

全新"高级标注模式"：直接在网页/UI 上修改元素并实时预览，Codex 自动生成对应代码
零散修改意见可打包成批处理评论发给 Codex

5. 团队协作 + Analytics¶

Business 用户可在团队内分发自定义插件、复用内部工具
Analytics 新增维度：活跃用户、Credits 消耗、Token 用量、运行次数、用户排行榜、生成代码行数、插件使用量
更新 Analytics API，便于团队精确掌握 Codex 在组织内的使用情况

6. ChatGPT for PowerPoint Beta 同日上线¶

ChatGPT 直接在 PowerPoint 内部创建和编辑演示文稿
一句话生成全套可编辑幻灯片
可从 Gmail、Outlook、SharePoint 拉取实时数据
全球所有 ChatGPT 用户层级开放 Beta

7. 增长曲线¶

周活 100 万每增长一次，所有用户的使用限额重置一次（直到 1000 万为止）
50% 的 Codex 用户已不主要用它写代码
自动化流程、跨工具协作、长期任务管理、远程电脑操控

深度分析¶

1. Appshots 解决的是"上下文获取的物理边界"¶

传统 AI 编码工具的上下文输入只能是用户主动复制粘贴或文件读取。Appshots 直接读取应用窗口的渲染状态——包括屏幕外未滚动到的内容。这突破了上下文获取的物理边界：

旧范式：用户必须把信息"搬运"给 AI（截图+OCR、复制+粘贴）
新范式：AI 直接从应用程序的内部状态获取信息

从工程实现看，Appshots 显然不是简单的截图+OCR——它能读取屏幕外的文本意味着Codex 直接调用了应用程序的 accessibility API 或文档对象模型。这在 Mac 上通过 Accessibility API（AXUIElement）实现技术上可行，但需要用户授予系统级权限。

对开发者工作流的实际影响：阅读长文档/邮件/API 参考时不再需要分段截图，整页都被 AI 一次性消化。这是消除人机交互摩擦力的核心机制。

2. /goal 毕业意味着 Agent 从"反射模型"升级为"规划模型"¶

传统 Codex 是反射式（reactive）：用户给 prompt → AI 生成 → 等待下一个 prompt。/goal 毕业意味着 Codex 进入目标导向（goal-directed）模式：用户给里程碑 → AI 自主规划子任务 → 持续推进数小时至数天 → 中途用户可查询/调整/暂停。

这与 nanobot 的 subagent 机制本质相同（spawn 长任务到后台），但 OpenAI 把这个机制产品化、规模化，让无技术背景的用户也能用。

对工作流的根本性影响： - 早上设目标 → 晚上回来看结果 → 这是新的开发节奏 - 开发者从"指令的发出者"变成"目标的设定者+结果的评审者" - 单位时间产出从"代码行数"转向"已完成里程碑数"

但风险也跟着翻倍：长周期自主任务可能： - 走错方向数小时后才被发现 - 产生大量难以审查的代码变更 - 跨多个 commit 引入难以回滚的副作用

参见天猫团队实战指南中"AI 一直无法输出正确结果，在错误中不断循环"的"改不动"痛点——这在长周期任务中会被放大。

3. Locked Use 是 Computer Use 的物理空间扩展¶

Anthropic 已先推出 Computer Use，Google Project Mariner 跟进。但Locked Use 是 OpenAI 的差异化：让 AI 在"用户物理不在场+屏幕已锁"的条件下继续操作电脑。

技术上，这要求： - macOS 的特殊 entitlement（绕过 lock screen security model） - 与 Apple 的合作或基于 Accessibility 的官方支持 - 远程命令通过 Codex 服务端中转

商业意义：计算资源的"远程化"达到了新高度——Mac 本质上从"个人设备"演化为"个人云上的工作单元"。用户在手机上发指令，Mac 在家或办公室继续工作。

这对硬件市场也有连带影响：辣评"逼着我现在就去买一台 Mac"反映了 AI 时代下 硬件作为 AI Agent 的物理基座 的新需求逻辑。

4. "50% 用户不写代码"是 Codex 定位的根本转变¶

这个数据点比所有新功能都更重要。当 50% 用户用 Codex 做的事不是写代码时： - 命名"Codex"已不准确（应叫 General Agent） - 用户画像扩展到所有知识工作者 - 竞争对手不再是 Cursor/GitHub Copilot，而是 Slack/Notion/Microsoft Copilot

OpenAI 的产品策略路径开始清晰： 1. 从 ChatGPT 抓住对话场景 2. 从 Codex 抓住编程场景 3. 用 Codex 的能力扩张到"所有需要操作电脑的知识工作" 4. 用 ChatGPT for PowerPoint 这类插件回头反向渗透传统办公软件

这与同期 a16z 对话 Roblox PM "工具型 App 首当其冲被 Agent 入口替代" 的判断完全一致。

5. 增长 hack：用 quota reset 强化用户增长¶

"每增长 100 万周活，重置所有用户限额"是非常聪明的增长设计： - 现有用户有动力推广（推广 = 自己得到更多额度） - 新用户感知价值（"先用够了再说"） - 把增长拉力从"产品体验"扩展到"社交激励"

这种用产品资源直接奖励社交传播的机制，在 SaaS 增长史上较少见。Dropbox 的"邀请获取存储"是远祖，但 OpenAI 把它做到了实时增长曲线驱动——这是把增长数据本身变成产品机制。

6. ChatGPT for PowerPoint：从 Add-in 到 Agent 入口¶

ChatGPT 杀入 PowerPoint 看似是常规产品扩张，但有两个关键差异： - 数据连接能力：直接从 Gmail/Outlook/SharePoint 拉取实时数据 - 完全可编辑输出：不是图片 / 不可改的模板，而是原生 PowerPoint 对象

第二点尤其重要——传统 AI 生成的 PPT 输出常常是图片或不规范模板，用户改起来困难。"完全可编辑"意味着 AI 真正进入了专业工具的编辑模型而非"贴一个外壳"。

竞争格局：ChatGPT vs. Claude vs. Copilot 三足鼎立。Microsoft 在 Office 内的天然优势被 ChatGPT 通过插件机制部分抵消——插件模式让 OpenAI 不需要拥有 Office，也能成为 Office 内的 AI 主导。

7. 跨能力组合的乘法效应¶

Appshots（屏幕感知） + /goal（长周期自主） + Locked Use（物理边界突破） + 插件共享（团队协作）不是叠加，是乘法： - Appshots 让 AI 看见任何应用 → /goal 让它干任何任务 → Locked Use 让它持续干 → 插件让团队复用 - 最终形态：一个能自主理解屏幕、长期推进任务、跨设备运行、团队级复用的 AI 工作者

这个组合的整体冲击力远超单项功能之和。从 Karpathy "锯齿智能"的视角看，OpenAI 正在用产品工程主动磨平能力分布的锯齿——单项能力不一定最强，但组合后的实用性最高。

实践启示¶

重新评估 AI 工具选型边界：如果你只用 Codex 写代码，可能严重低估其价值。审视团队工作流中"操作电脑"的所有场景，看哪些可以委托给 Codex。
建立长周期任务的审查机制：/goal 模式带来"开早晚归看结果"的新节奏，但需要配套的代码审查机制——不能让 AI 跑 8 小时后发现整个方向错了。建议：每完成一个子里程碑就强制人工 checkpoint。
Accessibility API 友好的工程设计：随着 Appshots 这类工具普及，应用程序应该：
给 UI 元素提供合理的 accessibility label
保持 DOM/视图层级清晰
避免用图片代替文本这同时改善了 AI 可读性与无障碍体验。
远程工作流重构：Locked Use 让"在路上用手机管理桌面任务"成为现实。重新设计工作流，把"必须在电脑前完成"的任务转化为"在桌面被 AI 长期推进，手机查看进度"的模式。
团队插件作为 SOP 沉淀：把团队的最佳实践沉淀到 Codex 插件，比维护 wiki 文档更可执行。每个插件本身就是可调用的 SOP。
PPT 自动化重新评估：ChatGPT for PowerPoint + 数据连接意味着季度回顾/客户简报/董事会汇报的制作时间可压缩 80%+。值得在这些高频场景做完整迁移。
预算与限额规划：quota reset 机制下，使用越多团队成员就越能解锁更多额度。建议团队层面统一推广 Codex 而非个人零散使用。
Computer Use 安全治理：Locked Use 等能力存在严重的安全风险（AI 在用户不在场时操作电脑）。企业需建立：审计日志、权限白名单、敏感操作二次确认机制。

关联实体¶

Nanobot Agent Framework Architecture Deep Dive — subagent / 长周期任务的极简框架样本
腾讯研究院Ai速递 20260506 — 同期 AI 行业全景，含"工具型 App 消亡"判断
天猫新品营销技术团队Ai编码实战指南上 — AI 编码全流程工程化方法论
Karpathy Vibe Coding Agentic Engineering — vibe coding 到 agentic engineering 的演进
Karpathy 最新访谈从 Vibe Coding 到 Agentic Engineering — 锯齿智能与 Codex 能力组合
Harness Engineering Framework — Agent harness 的工程框架
Agent Harness Context Management Working Set — Appshots 引发的 working set 管理新挑战

信号判断¶

短期（6 个月）： - Cursor / GitHub Copilot / Claude Code 将跟进 screen-capture-aware + long-running goal 能力 - macOS / Windows 会增加 Computer Use 类操作的官方 entitlement 体系 - 企业级 AI 治理工具市场被催生

长期（18 个月）： - "Agent 入口"逐步取代"App 入口"，传统 SaaS 的导航/搜索/设置等 UI 部分被 Agent 化 - 50% 不写代码的趋势继续放大到 70%+，Codex 演化为 General Agent - "在电脑前工作"的物理隐喻被打破，远程 AI 委托成为主流工作模式

Codex 重磅升级：Appshots / Goal 毕业 / 锁屏远程操控¶

Ch01.261 Codex 重磅升级：Appshots / Goal 毕业 / 锁屏远程操控¶

Codex 重磅升级：Appshots / Goal 毕业 / 锁屏远程操控¶

相关实体¶

摘要¶

核心要点¶

1. Appshots：双击 Command 读懂"所有屏"¶

2. /goal 模式正式毕业¶

3. Locked Use：Mac 锁屏远程操控¶

4. 应用内浏览器迭代¶

5. 团队协作 + Analytics¶

6. ChatGPT for PowerPoint Beta 同日上线¶

7. 增长曲线¶

深度分析¶

1. Appshots 解决的是"上下文获取的物理边界"¶

2. /goal 毕业意味着 Agent 从"反射模型"升级为"规划模型"¶

3. Locked Use 是 Computer Use 的物理空间扩展¶

4. "50% 用户不写代码"是 Codex 定位的根本转变¶

5. 增长 hack：用 quota reset 强化用户增长¶

6. ChatGPT for PowerPoint：从 Add-in 到 Agent 入口¶

7. 跨能力组合的乘法效应¶

实践启示¶

关联实体¶

信号判断¶