Agivar 录屏教学桌面 Agent：清华非十科技大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性¶

Ch04.161 Agivar 录屏教学桌面 Agent：清华非十科技大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性¶

📊 Level ⭐⭐ | 12.4KB | entities/agivar-screen-recording-teaching-brain-cerebellum-architecture-2026.md

Agivar 录屏教学桌面 Agent¶

原文存档：原文存档

软文性质：机器之心发布"非十科技 Agivar"产品。本文重点提取架构创新 + 方法论，软文部分批判性吸收。

一句话定位¶

Agivar 是清华大学计算机系博士团队创立的非十科技（fittentech.com）发布的桌面 Agent——核心能力是"录屏教学"（用户演示一次工作流程，AI 学习后自动执行），采用"大脑 + 小脑"双层架构，底层基于清华自研 Jittor（计图） 深度学习框架。同任务2.3× 提速（57 秒 vs 某主流 2 分 12 秒）+ 三层确定性设计（训练收敛/多重校验/规则约束）。

区别于"按键精灵"的坐标记录，Agivar 学习的是任务和逻辑：为什么先打开这个页面？为什么填这个数字？什么情况下跳过这一步？

序：AI 学着操作电脑¶

过去 AI 回答问题，现在它直接开始帮你干活。填表格、录系统、整理文件，Anthropic Claude Cowork / OpenAI Codex 桌面版——越来越多的 Agent 开始接管真实工作流。

核心矛盾：AI 越来越会干活了，但普通人该怎么把自己的工作流程交给它？

主流 Agent "你写 Prompt → AI 执行" 屡屡碰壁。打开内部系统、填表单、传附件、点提交…这些动作早已是员工的"肌肉记忆"，要用文字描述清楚，大多数人直接卡住。

FDE (Forward Deployment Engineer) 现状¶

硅谷新职业 —— FDE (Forward Deployment Engineer，前沿部署工程师)。驻场在客户公司，工作就是把业务人员"说不清"的流程，翻译成 AI 能执行的任务。既要懂技术，又要熟悉真实工作流。

资深 FDE 年薪中位数已高达 48.5 万美元。

FDE 的存在说明了一件事：让人学会教 AI，其实没有那么容易。

Agivar 核心能力：录屏教学¶

使用方式：打开电脑录屏，像平时工作一样把流程操作一遍。录制结束后，剩下的事情交给 AI。

与"按键精灵"的本质区别¶

维度	按键精灵	Agivar
记录内容	坐标和动作 (鼠标 (300,500) 点击)	任务和逻辑 (为什么填这个数字)
抗界面变化	不能（界面改版就失效）	能（识别正确目标并执行）
学习对象	操作轨迹	工作方法

案例：广东省政务部门¶

某政务部门工作人员，每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批，每天同样的流程都要重复十几次。仅这一项工作，日常就要花掉一、两个小时。

这些系统没有 API、没有自动化接口，只能靠人工点击。使用 Agivar 录制一次完整流程，不到三分钟，此后便自动执行。

录屏三分钟，换回每天两小时。

类似场景：政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统 —— 大量重复、无 API、只能手工操作的流程。

大脑 + 小脑双层架构¶

为什么 Agivar 更快？团队针对桌面任务场景训练了专用执行模型，强化桌面操作能力。设计了"大脑 + 小脑"双层架构：

层	模型	职责
大脑	大模型	理解录屏内容 / 拆解任务目标 / 规划执行路径 / 处理异常
小脑	专用小模型	界面识别 / 鼠标点击 / 键盘输入 / 高频动作执行

类比人类神经系统：开车时不会每踩一次油门都重新思考交通规则。大脑负责路线规划，小脑负责具体动作。

底层：Jittor (计图) 推理引擎¶

团队基于清华大学自研深度学习框架 Jittor（计图） 开发的推理引擎，针对高吞吐、低延迟桌面任务场景，专门优化模型调度和执行链路，确保大小模型协同不等待。

速度对比¶

同一台电脑执行同一后台信息录入任务： - 某主流产品：2 分 12 秒 - Agivar：57 秒（2.3× 提速）

单个任务差一分钟差距或许不明显，但 100 份报销单 / 300 条客户信息 / 一天批量审批时，分钟级差距放大成小时级成本。

三层确定性设计¶

企业是否能将 Agent 推进生产，关注的是稳而不是快。大模型是概率系统，第一次点 A，第二次可能点 B —— 写诗时是创意，财务录入/合同归档里却是风险。

AI 能否进入生产环境，拼的从来不是上限，而是下限。

层	机制	作用
1. 训练收敛	海量桌面任务数据，强化"界面状态→用户意图→执行动作"稳定映射	减少"发散"
2. 多重校验	内部多个 Agent 交叉验证（规划/执行/观察/复核）	不同角色各司其职
3. 规则约束	高频流程关键操作节点、绝对不能出错的动作，写成程序控制"铁律"	不随意发挥

最终目标：同一任务重复执行，走同样路径，得到同样结果。生产环境不需要惊喜，只需要稳定。

全栈自研：清华团队底牌¶

维度	来源
模型训练	非十科技自研
执行框架	非十科技自研
深度学习框架	清华自研 Jittor (计图)
团队核心	清华大学计算机系博士 + Jittor 主要开发者

Jittor 已成国内主流深度学习框架之一。Agivar 对底层推理调度的优化，并非建立在第三方能力之上，而是具备从框架层到模型层的完整掌控能力。

同公司前作：Fitten Code¶

非十科技此前推出 Fitten Code AI 编程助手，累计下载量超过 150 万，多个主流插件平台评分第一。

同时拥有大模型自研 + 深度学习框架研发 + 百万级产品落地经验，"这样的组合，在国内外同类赛道中并不多见"。

平台支持¶

公测中：Agivar 已开启公测
系统支持：Windows + macOS
下载地址：https://agivar.fittentech.com

核心洞察¶

录屏教学改变了人机协作关系：过去软件要求人适应系统，下一代 Agent 正在反过来适应人
大脑小脑分层是 Agent 性能突破的关键：避免每次点击都调用通用大模型（5+ 秒延迟）
确定性比速度更重要：企业级 Agent 必须设计"铁律"约束层，不能纯靠概率
清华 Jittor + 全栈自研 = 垂直整合优势：从深度学习框架到模型到产品的完整掌控
FDE 模式成本太高：48.5 万美元年薪的"翻译者"如果能被 AI 替代——批判性看，这是产品宣传话术，实际替代取决于具体场景的流程复杂度

与 Anthropic Computer Use / Claude Cowork / Codex 桌面版的关系¶

产品	核心方法	痛点
Anthropic Computer Use	通用多模态大模型直接"看屏幕"执行	慢（5+ 秒/步）、贵（45× structured APIs）、需复杂 prompt
Claude Cowork	Computer Use + 工作流编排	偏向团队协作场景
OpenAI Codex 桌面版	通用多模态模型控制桌面	同上
Agivar	录屏教学 + 大脑小脑分层	演示一次即可训练专属 Agent

Agivar 差异化：演示式学习（让 AI 主动理解用户工作流）而非 Prompt 编写（用户主动教 AI）。

适用场景 vs 不适用场景¶

适用¶

政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统
没有 API、只能手工操作的流程
重复性高、规则明确的工作（录屏 3 分钟可表达的）

不适用¶

需要创造性判断的工作
异常处理频次高的流程
跨多个非结构化系统的工作

关联引用¶

→ Anthropic Computer Use 最佳实践 — 通用多模态大模型路径 → Computer Use 45× 成本问题 — Computer Use 的成本痛点 → IBM Forward Deployed Units (FDU) — FDE 模式企业级 AI 部署 → Agentic Future 竞赛 (Tidemark) — FDE 概念与投资视角 → 原文存档（本篇）

Agivar 录屏教学桌面 Agent：清华非十科技 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性¶

Ch04.161 Agivar 录屏教学桌面 Agent：清华非十科技 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性¶