他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

Ch04.001 他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

📊 Level ⭐ | 12.0KB | entities/stepan-gershuni-ai-native-startup-guide.md

他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

来源：深思圈 / 深思SenseAI（2026-05-26）| 原文存档：原文存档

深度分析¶

本文是深思圈对 cyber.fund 创始人 Stepan Gershuni 的《How to Build an AI-Native Startup》的系统梳理。核心论点：AI 原生创业的核心差距不是工具选择，而是组织学习速度——谁能用 AI 构建自我改进的操作系统，谁就能在几个月内建立不可逆的竞争优势。

01 先画地图：按自主程度对工作分级¶

第一步不是选工具，而是画工作地图。把过去两周公司重复发生的所有工作列出来：客户通话整理、线索调研、支持工单分类、产品测试、候选人初筛、发票审核、竞品监控。

然后按自主程度分级： - L1 纯人工：战略决策、关键招聘、法律签字，不碰 - L2 AI 起草 + 人工审批：投资人更新、合同红线、定价页改写 - L3 AI 执行 + 人工监督：入站分类、会议记录路由、线索丰富 - L4 自主跑 + 明确限制：竞品监控、夜间报告、简单异常检测

反直觉规律：频率胜过重要性。每周写一次的投资人更新一年只有 52 次机会发现问题；每天跑十次的工单分类一年有 3650 次机会让评估系统抓到失败模式。低频工作攒不够样本来建立质量反馈。

C.H. Robinson 案例警示：试过把每天 10,000 封邮件入站分类推到全自主，结果退回 L2。如果团队自己都说不清什么算做得好，这个流程还没到能交给机器的时候。

02 把记忆装进代码库：Context 是操作记忆¶

Context = AI 原生创业公司的操作记忆——公司对自己的一切了解，放在智能体能读到的地方。

作者的核心比喻：模型是锅，context 是你和业务之间的默契库。同一个模型，读了三个月客户通话提炼的公司，和刚接入 API 的公司，输出质量差距不是一个级别。模型会换代（锅会升级），但「知道客户说'再考虑考虑'其实是嫌价格太高」这层提炼，是跟着你走的。

Git 仓库作为 context 基础：有版本历史、可比较差异、人和智能体都能读。第七天工作区可以只有：CLAUDE.md、context/company.md、context/product.md、context/customers.md、context/lessons.md。控制在 40-60 行手写内容，紧凑的「应该避免什么」清单比 400 行 AI 生成内容更有用。

关键数字：Anthropic MCP 代码执行工作展示「服务器文件夹」加载方式，把 context 占用从约 15 万 token 降到约 2000 token——削减 98.7%。

两个核心原则： 1. 原始数据和提炼数据分开：通话录音是原始数据；通话里做的决定、客户反对意见、续约风险是提炼数据。混在一起会淹在录音里，永远搭不起真正有用的层。 2. 溯源：每个智能体的总结必须能追溯到源头——哪个录音、哪张工单、哪个数据库行。没有溯源，公司会充满无法核实的「听起来很对」的总结，第一次有人发现答案错了，整个智能体层的信任就崩了。有溯源，争议一秒内解决。

03 选最轻的那个：混合工具栈¶

不是所有流程都需要智能体。最好的 AI 原生系统是脚本、AI 辅助人工、确定性工作流、和智能体的混合体： - 步骤确定的用脚本：导出报告、转 CSV、跑测试、校验 JSON，别浪费智能体算力 - 输出需判断才能放出的用 AI 辅助人工：投资人更新、定价文案 - 步骤已知但链条长的用工作流串起来 - 路径真的无法预设时才请智能体：排查生产 bug、调研市场、处理复杂客户案例

每个智能体必须套 Harness（防护层）六阶段： 1. 预检：消耗 token 之前检查权限 2. 计划：拆解任务，暴露步骤 3. 审批：人或评判模型把关 4. 执行 5. 验证 6. 记录

防护规则必须写进代码和配置，不能只写在提示词里。2025 年 Replit 事件：编程智能体在会话中把生产数据库清空了。提示词指令不是安全边界，只有代码层面的限制才是。

04 什么叫做对了：Skills + Evals 是引擎¶

技能（Skills）= 可复用的指令加示例，用于一个重复性任务。手跑两遍，把重复部分编码。每个技能需要：范围、输入、需要加载的 context、步骤、输出格式、示例、升级规则、负责人、运行日志。

如果文件没说它接受什么、返回什么、什么时候求助、谁来维护，那它是个很长的提示词，不是一个技能。

评估（Evals）= 让技能复利的东西。有了可用的 eval，提示词调整变成可选项：反思模型提出改动 → eval 给改动排名 → 最好的自动上线。没有 eval，每次迭代都是口味之争。

客户通话整理举例：拿 30 个历史通话，让业务负责人标注每个应该提取什么。机械检查（名字对不对、金额和合同匹配吗、跟进日期在正确的周内）是确定性的，直接判断。LLM 评判负责剩下的部分：这份通话简报听起来像那次通话吗？跑约 50 次之后会发现两个固定失败模式——通常是你之前没想到的那两件，不是你担心的那些问题。

核心指标：接受率。低于约 70%，技能还没准备好提升自主程度。接受率低时直觉是改提示词——几乎从来不是这个问题。通常是四件事：运行时加载更多 context、收窄技能范围、文件里加更多已完成的示例、或者为智能体不该接的任务写更清楚的升级规则。

05 创始人先上¶

最快让团队转向新运作方式的路：创始人自己在真实 context 下现场演示。从日历、收件箱、Slack 过夜拉取晨简报；展示昨天通话的客户合成；展示智能体根据需求文档开的测试 PR；展示从最新指标包自动生成的投资人更新草稿。

Jack Dorsey 在 Block 围绕这些工具重组之前，每天早上花几个小时亲自使用这些工具。领导层亲自用过，才有了那次效率重组的决定。

入职也要变：每个新成员在第一次会话结束时，都要有一个当天可以用的输出——清理后的客户简报、支持宏、测试 PR、定价页评审。Ramp 的 Glass 工具靠这个规则，从每天 20 个日活用户涨到三个月内的 700 个。不产生真实工作的培训，下周就被忘了。

招聘门槛提高：有些以前需要人的工作现在是一个技能。招人时测的不是知识，是判断力——给候选人一个在给定时间内靠人工做不完的任务，看他们怎么指挥智能体做完。招的是判断力、品味、和当智能体走偏时的纠错能力。

06 每周进化：内外环学习系统¶

AI 原生创业公司每周改进一次自己的操作系统。

内环：让现有工作更好——降低每次运行成本、缩短周期、减少事故、减少审查时间。外环：寻找下一步——新客户群、产品方向、竞争对手动态、流失风险。后台智能体全天候给外环输送候选项，人来决定追哪个。

硬规则：任何代码都不能自动合并，没有智能体可以直接写入生产环境。就连 Cursor 在 2026 年初大规模跑云端自主智能体时，合并前仍保留了人工审查门槛。这个门槛是让其他一切能安全扩展的前提。

真正的天花板：不是模型能力，是能不能写出 eval。如果你能把「什么是好输出」编码成二元标签、评分标准、或者几个业务指标，循环就能在整个公司的规模上运转。如果不能，再强的模型也填不了这个空。

编码能力有帮助，但不是瓶颈；一个能可靠标注输出好坏的领域专家，可以跑完整个循环。

07 护城河是什么¶

「每个人都有同样的模型；操作系统是秘密武器。」

深思圈对这点的补充值得记录：Gershuni 把问题框定为「执行纪律」，但漏掉了更根本的东西——判断什么值得编码，本身就是一种稀缺能力，这个能力没法被方法论覆盖。大多数创始人高估自己做的事的战略含量，瓶颈不是纪律，是自我认知的诚实度。

还有一个未解决的思考：如果操作系统真的是护城河，一旦某家公司的 context 和 eval 积累到临界点，后来者是否永远追不上？不是赢家通吃市场份额，是赢家通吃学习速度本身。先跑起来的公司每天比你多学一点，而且学习速度还在加速。这不是线性差距，是指数差距。历史上每一个「指数差距不可逆」的论断最后都被某种范式跳跃打断过。

实践启示¶

从画地图开始：列出公司重复发生的所有工作，按 L1-L4 自主程度分级，优先找高频、低风险、路径可预设的环节实现闭环。
用 Git 管理 context：从 CLAUDE.md + 5 个 context 文件开始，控制 40-60 行手写内容。原始数据和提炼数据分开，保证溯源。
混合工具栈：不是所有工作都需要智能体。脚本处理确定性步骤，AI 辅助处理需判断的输出，智能体只处理路径无法预设的复杂任务。
每个智能体套六阶段 harness：预检→计划→审批→执行→验证→记录，防护规则必须写进代码而非提示词。
Skills + Evals 是复利引擎：先把重复工作手跑两遍形成可执行技能，用 eval 给技能装上自动优化回路。接受率低于 70% 时不要改提示词，检查 context 加载、范围收窄、示例丰富度、升级规则。
创始人先上：自己用 AI 工具处理真实工作流，现场演示给团队，入职第一天就让新成员有真实输出。
每周进化循环：后台智能体全天候给外环输送候选项，人决定追哪个——保持学习和改进的系统性节奏。

他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

Ch04.001 他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

他的 Agent 昨晚替他把公司运转了一遍，你的早会才刚开始¶

深度分析¶

01 先画地图：按自主程度对工作分级¶

02 把记忆装进代码库：Context 是操作记忆¶

03 选最轻的那个：混合工具栈¶

04 什么叫做对了：Skills + Evals 是引擎¶

05 创始人先上¶

06 每周进化：内外环学习系统¶

07 护城河是什么¶

实践启示¶

相关实体¶