跳转至

他的 Agent 昨晚替他把公司运转了一遍,你的早会才刚开始

Ch04.001 他的 Agent 昨晚替他把公司运转了一遍,你的早会才刚开始

📊 Level ⭐ | 12.0KB | entities/stepan-gershuni-ai-native-startup-guide.md

他的 Agent 昨晚替他把公司运转了一遍,你的早会才刚开始

来源:深思圈 / 深思SenseAI(2026-05-26)| 原文存档:原文存档

深度分析

本文是深思圈对 cyber.fund 创始人 Stepan Gershuni 的《How to Build an AI-Native Startup》的系统梳理。核心论点:AI 原生创业的核心差距不是工具选择,而是组织学习速度——谁能用 AI 构建自我改进的操作系统,谁就能在几个月内建立不可逆的竞争优势。

01 先画地图:按自主程度对工作分级

第一步不是选工具,而是画工作地图。把过去两周公司重复发生的所有工作列出来:客户通话整理、线索调研、支持工单分类、产品测试、候选人初筛、发票审核、竞品监控。

然后按自主程度分级: - L1 纯人工:战略决策、关键招聘、法律签字,不碰 - L2 AI 起草 + 人工审批:投资人更新、合同红线、定价页改写 - L3 AI 执行 + 人工监督:入站分类、会议记录路由、线索丰富 - L4 自主跑 + 明确限制:竞品监控、夜间报告、简单异常检测

反直觉规律:频率胜过重要性。每周写一次的投资人更新一年只有 52 次机会发现问题;每天跑十次的工单分类一年有 3650 次机会让评估系统抓到失败模式。低频工作攒不够样本来建立质量反馈。

C.H. Robinson 案例警示:试过把每天 10,000 封邮件入站分类推到全自主,结果退回 L2。如果团队自己都说不清什么算做得好,这个流程还没到能交给机器的时候。

02 把记忆装进代码库:Context 是操作记忆

Context = AI 原生创业公司的操作记忆——公司对自己的一切了解,放在智能体能读到的地方。

作者的核心比喻:模型是锅,context 是你和业务之间的默契库。同一个模型,读了三个月客户通话提炼的公司,和刚接入 API 的公司,输出质量差距不是一个级别。模型会换代(锅会升级),但「知道客户说'再考虑考虑'其实是嫌价格太高」这层提炼,是跟着你走的。

Git 仓库作为 context 基础:有版本历史、可比较差异、人和智能体都能读。第七天工作区可以只有:CLAUDE.md、context/company.md、context/product.md、context/customers.md、context/lessons.md。控制在 40-60 行手写内容,紧凑的「应该避免什么」清单比 400 行 AI 生成内容更有用。

关键数字:Anthropic MCP 代码执行工作展示「服务器文件夹」加载方式,把 context 占用从约 15 万 token 降到约 2000 token——削减 98.7%。

两个核心原则: 1. 原始数据和提炼数据分开:通话录音是原始数据;通话里做的决定、客户反对意见、续约风险是提炼数据。混在一起会淹在录音里,永远搭不起真正有用的层。 2. 溯源:每个智能体的总结必须能追溯到源头——哪个录音、哪张工单、哪个数据库行。没有溯源,公司会充满无法核实的「听起来很对」的总结,第一次有人发现答案错了,整个智能体层的信任就崩了。有溯源,争议一秒内解决。

03 选最轻的那个:混合工具栈

不是所有流程都需要智能体。最好的 AI 原生系统是脚本、AI 辅助人工、确定性工作流、和智能体的混合体: - 步骤确定的用脚本:导出报告、转 CSV、跑测试、校验 JSON,别浪费智能体算力 - 输出需判断才能放出的用 AI 辅助人工:投资人更新、定价文案 - 步骤已知但链条长的用工作流串起来 - 路径真的无法预设时才请智能体:排查生产 bug、调研市场、处理复杂客户案例

每个智能体必须套 Harness(防护层)六阶段: 1. 预检:消耗 token 之前检查权限 2. 计划:拆解任务,暴露步骤 3. 审批:人或评判模型把关 4. 执行 5. 验证 6. 记录

防护规则必须写进代码和配置,不能只写在提示词里。2025 年 Replit 事件:编程智能体在会话中把生产数据库清空了。提示词指令不是安全边界,只有代码层面的限制才是。

04 什么叫做对了:Skills + Evals 是引擎

技能(Skills)= 可复用的指令加示例,用于一个重复性任务。手跑两遍,把重复部分编码。每个技能需要:范围、输入、需要加载的 context、步骤、输出格式、示例、升级规则、负责人、运行日志。

如果文件没说它接受什么、返回什么、什么时候求助、谁来维护,那它是个很长的提示词,不是一个技能。

评估(Evals)= 让技能复利的东西。有了可用的 eval,提示词调整变成可选项:反思模型提出改动 → eval 给改动排名 → 最好的自动上线。没有 eval,每次迭代都是口味之争。

客户通话整理举例:拿 30 个历史通话,让业务负责人标注每个应该提取什么。机械检查(名字对不对、金额和合同匹配吗、跟进日期在正确的周内)是确定性的,直接判断。LLM 评判负责剩下的部分:这份通话简报听起来像那次通话吗?跑约 50 次之后会发现两个固定失败模式——通常是你之前没想到的那两件,不是你担心的那些问题。

核心指标:接受率。低于约 70%,技能还没准备好提升自主程度。接受率低时直觉是改提示词——几乎从来不是这个问题。通常是四件事:运行时加载更多 context、收窄技能范围、文件里加更多已完成的示例、或者为智能体不该接的任务写更清楚的升级规则。

05 创始人先上

最快让团队转向新运作方式的路:创始人自己在真实 context 下现场演示。从日历、收件箱、Slack 过夜拉取晨简报;展示昨天通话的客户合成;展示智能体根据需求文档开的测试 PR;展示从最新指标包自动生成的投资人更新草稿。

Jack Dorsey 在 Block 围绕这些工具重组之前,每天早上花几个小时亲自使用这些工具。领导层亲自用过,才有了那次效率重组的决定。

入职也要变:每个新成员在第一次会话结束时,都要有一个当天可以用的输出——清理后的客户简报、支持宏、测试 PR、定价页评审。Ramp 的 Glass 工具靠这个规则,从每天 20 个日活用户涨到三个月内的 700 个。不产生真实工作的培训,下周就被忘了。

招聘门槛提高:有些以前需要人的工作现在是一个技能。招人时测的不是知识,是判断力——给候选人一个在给定时间内靠人工做不完的任务,看他们怎么指挥智能体做完。招的是判断力、品味、和当智能体走偏时的纠错能力。

06 每周进化:内外环学习系统

AI 原生创业公司每周改进一次自己的操作系统。

内环:让现有工作更好——降低每次运行成本、缩短周期、减少事故、减少审查时间。 外环:寻找下一步——新客户群、产品方向、竞争对手动态、流失风险。后台智能体全天候给外环输送候选项,人来决定追哪个。

硬规则:任何代码都不能自动合并,没有智能体可以直接写入生产环境。就连 Cursor 在 2026 年初大规模跑云端自主智能体时,合并前仍保留了人工审查门槛。这个门槛是让其他一切能安全扩展的前提。

真正的天花板:不是模型能力,是能不能写出 eval。如果你能把「什么是好输出」编码成二元标签、评分标准、或者几个业务指标,循环就能在整个公司的规模上运转。如果不能,再强的模型也填不了这个空。

编码能力有帮助,但不是瓶颈;一个能可靠标注输出好坏的领域专家,可以跑完整个循环。

07 护城河是什么

「每个人都有同样的模型;操作系统是秘密武器。」

深思圈对这点的补充值得记录:Gershuni 把问题框定为「执行纪律」,但漏掉了更根本的东西——判断什么值得编码,本身就是一种稀缺能力,这个能力没法被方法论覆盖。大多数创始人高估自己做的事的战略含量,瓶颈不是纪律,是自我认知的诚实度。

还有一个未解决的思考:如果操作系统真的是护城河,一旦某家公司的 context 和 eval 积累到临界点,后来者是否永远追不上?不是赢家通吃市场份额,是赢家通吃学习速度本身。先跑起来的公司每天比你多学一点,而且学习速度还在加速。这不是线性差距,是指数差距。历史上每一个「指数差距不可逆」的论断最后都被某种范式跳跃打断过。

实践启示

  1. 从画地图开始:列出公司重复发生的所有工作,按 L1-L4 自主程度分级,优先找高频、低风险、路径可预设的环节实现闭环。
  2. 用 Git 管理 context:从 CLAUDE.md + 5 个 context 文件开始,控制 40-60 行手写内容。原始数据和提炼数据分开,保证溯源。
  3. 混合工具栈:不是所有工作都需要智能体。脚本处理确定性步骤,AI 辅助处理需判断的输出,智能体只处理路径无法预设的复杂任务。
  4. 每个智能体套六阶段 harness:预检→计划→审批→执行→验证→记录,防护规则必须写进代码而非提示词。
  5. Skills + Evals 是复利引擎:先把重复工作手跑两遍形成可执行技能,用 eval 给技能装上自动优化回路。接受率低于 70% 时不要改提示词,检查 context 加载、范围收窄、示例丰富度、升级规则。
  6. 创始人先上:自己用 AI 工具处理真实工作流,现场演示给团队,入职第一天就让新成员有真实输出。
  7. 每周进化循环:后台智能体全天候给外环输送候选项,人决定追哪个——保持学习和改进的系统性节奏。

相关实体

原文存档