跳转至

Agivar 录屏教学桌面 Agent:清华非十科技 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性

Ch04.161 Agivar 录屏教学桌面 Agent:清华非十科技 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性

📊 Level ⭐⭐ | 12.4KB | entities/agivar-screen-recording-teaching-brain-cerebellum-architecture-2026.md

Agivar 录屏教学桌面 Agent

原文存档:原文存档

软文性质:机器之心发布"非十科技 Agivar"产品。本文重点提取架构创新 + 方法论,软文部分批判性吸收。

一句话定位

Agivar 是清华大学计算机系博士团队创立的非十科技(fittentech.com)发布的桌面 Agent——核心能力是"录屏教学"(用户演示一次工作流程,AI 学习后自动执行),采用"大脑 + 小脑"双层架构,底层基于清华自研 Jittor(计图) 深度学习框架。同任务2.3× 提速(57 秒 vs 某主流 2 分 12 秒)+ 三层确定性设计(训练收敛/多重校验/规则约束)。

区别于"按键精灵"的坐标记录,Agivar 学习的是任务和逻辑:为什么先打开这个页面?为什么填这个数字?什么情况下跳过这一步?

序:AI 学着操作电脑

过去 AI 回答问题,现在它直接开始帮你干活。填表格、录系统、整理文件,Anthropic Claude Cowork / OpenAI Codex 桌面版——越来越多的 Agent 开始接管真实工作流。

核心矛盾:AI 越来越会干活了,但普通人该怎么把自己的工作流程交给它?

主流 Agent "你写 Prompt → AI 执行" 屡屡碰壁。打开内部系统、填表单、传附件、点提交…这些动作早已是员工的"肌肉记忆",要用文字描述清楚,大多数人直接卡住。

FDE (Forward Deployment Engineer) 现状

硅谷新职业 —— FDE (Forward Deployment Engineer,前沿部署工程师)。驻场在客户公司,工作就是把业务人员"说不清"的流程,翻译成 AI 能执行的任务。既要懂技术,又要熟悉真实工作流。

资深 FDE 年薪中位数已高达 48.5 万美元

FDE 的存在说明了一件事:让人学会教 AI,其实没有那么容易

Agivar 核心能力:录屏教学

使用方式:打开电脑录屏,像平时工作一样把流程操作一遍。录制结束后,剩下的事情交给 AI。

与"按键精灵"的本质区别

维度 按键精灵 Agivar
记录内容 坐标和动作 (鼠标 (300,500) 点击) 任务和逻辑 (为什么填这个数字)
抗界面变化 不能(界面改版就失效) 能(识别正确目标并执行)
学习对象 操作轨迹 工作方法

案例:广东省政务部门

某政务部门工作人员,每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批,每天同样的流程都要重复十几次。仅这一项工作,日常就要花掉一、两个小时。

这些系统没有 API、没有自动化接口,只能靠人工点击。使用 Agivar 录制一次完整流程,不到三分钟,此后便自动执行。

录屏三分钟,换回每天两小时

类似场景:政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统 —— 大量重复、无 API、只能手工操作的流程

大脑 + 小脑双层架构

为什么 Agivar 更快?团队针对桌面任务场景训练了专用执行模型,强化桌面操作能力。设计了"大脑 + 小脑"双层架构:

模型 职责
大脑 大模型 理解录屏内容 / 拆解任务目标 / 规划执行路径 / 处理异常
小脑 专用小模型 界面识别 / 鼠标点击 / 键盘输入 / 高频动作执行

类比人类神经系统:开车时不会每踩一次油门都重新思考交通规则。大脑负责路线规划,小脑负责具体动作。

底层:Jittor (计图) 推理引擎

团队基于清华大学自研深度学习框架 Jittor(计图) 开发的推理引擎,针对高吞吐、低延迟桌面任务场景,专门优化模型调度和执行链路,确保大小模型协同不等待

速度对比

同一台电脑执行同一后台信息录入任务: - 某主流产品:2 分 12 秒 - Agivar:57 秒2.3× 提速

单个任务差一分钟差距或许不明显,但 100 份报销单 / 300 条客户信息 / 一天批量审批时,分钟级差距放大成小时级成本。

三层确定性设计

企业是否能将 Agent 推进生产,关注的是而不是。大模型是概率系统,第一次点 A,第二次可能点 B —— 写诗时是创意,财务录入/合同归档里却是风险。

AI 能否进入生产环境,拼的从来不是上限,而是下限

机制 作用
1. 训练收敛 海量桌面任务数据,强化"界面状态→用户意图→执行动作"稳定映射 减少"发散"
2. 多重校验 内部多个 Agent 交叉验证(规划/执行/观察/复核) 不同角色各司其职
3. 规则约束 高频流程关键操作节点、绝对不能出错的动作,写成程序控制"铁律" 不随意发挥

最终目标:同一任务重复执行,走同样路径,得到同样结果。生产环境不需要惊喜,只需要稳定

全栈自研:清华团队底牌

维度 来源
模型训练 非十科技自研
执行框架 非十科技自研
深度学习框架 清华自研 Jittor (计图)
团队核心 清华大学计算机系博士 + Jittor 主要开发者

Jittor 已成国内主流深度学习框架之一。Agivar 对底层推理调度的优化,并非建立在第三方能力之上,而是具备从框架层到模型层的完整掌控能力

同公司前作:Fitten Code

非十科技此前推出 Fitten Code AI 编程助手,累计下载量超过 150 万,多个主流插件平台评分第一。

同时拥有大模型自研 + 深度学习框架研发 + 百万级产品落地经验,"这样的组合,在国内外同类赛道中并不多见"。

平台支持

  • 公测中:Agivar 已开启公测
  • 系统支持:Windows + macOS
  • 下载地址:https://agivar.fittentech.com

核心洞察

  1. 录屏教学改变了人机协作关系:过去软件要求人适应系统,下一代 Agent 正在反过来适应人
  2. 大脑小脑分层是 Agent 性能突破的关键:避免每次点击都调用通用大模型(5+ 秒延迟)
  3. 确定性比速度更重要:企业级 Agent 必须设计"铁律"约束层,不能纯靠概率
  4. 清华 Jittor + 全栈自研 = 垂直整合优势:从深度学习框架到模型到产品的完整掌控
  5. FDE 模式成本太高:48.5 万美元年薪的"翻译者"如果能被 AI 替代——批判性看,这是产品宣传话术,实际替代取决于具体场景的流程复杂度

与 Anthropic Computer Use / Claude Cowork / Codex 桌面版的关系

产品 核心方法 痛点
Anthropic Computer Use 通用多模态大模型直接"看屏幕"执行 慢(5+ 秒/步)、贵(45× structured APIs)、需复杂 prompt
Claude Cowork Computer Use + 工作流编排 偏向团队协作场景
OpenAI Codex 桌面版 通用多模态模型控制桌面 同上
Agivar 录屏教学 + 大脑小脑分层 演示一次即可训练专属 Agent

Agivar 差异化演示式学习(让 AI 主动理解用户工作流)而非 Prompt 编写(用户主动教 AI)。

适用场景 vs 不适用场景

适用

  • 政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统
  • 没有 API、只能手工操作的流程
  • 重复性高、规则明确的工作(录屏 3 分钟可表达的)

不适用

  • 需要创造性判断的工作
  • 异常处理频次高的流程
  • 跨多个非结构化系统的工作

关联引用

Anthropic Computer Use 最佳实践 — 通用多模态大模型路径 → Computer Use 45× 成本问题 — Computer Use 的成本痛点 → IBM Forward Deployed Units (FDU) — FDE 模式企业级 AI 部署 → Agentic Future 竞赛 (Tidemark) — FDE 概念与投资视角 → 原文存档(本篇)