Giving your AI a Job Interview¶
Ch11.125 Giving your AI a Job Interview¶
📊 Level ⭐⭐ | 8.3KB |
entities/giving-your-ai-a-job-interview.md
Giving your AI a Job Interview¶
Ethan Mollick(One Useful Thing)关于 AI 评估方法论的深度文章。核心论点:标准基准测试(MMLU/GPQA/AIME)虽然整体趋势有意义,但对个人和组织的具体需求几乎无用。你需要像面试候选人一样,系统性地测试 AI 在你实际工作场景中的表现——包括"态度"和"判断倾向"。
→ 原文存档
摘要¶
AI 评估面临三重困境:(1) 基准测试的题目和答案公开,部分模型在训练中已见过;(2) 即便没见过,我们也不清楚这些测试到底在测什么(MMLU-Pro 中的"直立人平均颅容量"和"Cheap Trick 1979 年现场专辑"这类题目,答对意味着什么?);(3) 测试往往未校准——从 84% 到 85% 和从 40% 到 41% 的难度可能完全不同。Mollick 提出三种互补的评估路径:Vibes 式测试(个人快速感知)、真实世界基准(如 GDPval)、系统性"面试"(组织级部署必做)。
核心要点¶
基准测试的三重问题¶
- 数据污染:基准题目公开,模型可能无意或有意将其纳入训练数据
- 效度不明:单个基准测试到底测什么能力?答对"直立人颅容量"说明了什么?
- 未校准:分数的等距性无法保证,84%→85% 和 40%→41% 的难度可能差一个数量级
三种评估路径¶
1. Vibes 式测试:个人通过大量使用形成的直觉判断 - Simon Willison 的鹈鹕骑车测试 - Mollick 的水獭乘飞机测试 - "星际飞船控制面板" JavaScript 测试 - 优势:快速感知模型的"世界观"和风格差异 - 局限:高度个人化,不可复现,依赖主观感受
2. 真实世界基准(GDPval) - OpenAI 的 GDPval 方法论:收集 14 年平均经验的行业专家 → 生成 4-7 小时的真实项目 → 让 AI 和人类专家分别完成 → 第三组专家盲评 - 发现:最强模型在软件开发和个人财务顾问上胜过人类,但在药剂师、工业工程师、房地产经纪人的任务上输给人类 - 不同模型在不同职业上表现各异:ChatGPT 更擅长销售管理,Claude 更擅长财务顾问
3. 系统性面试(组织级) - 创建反映真实用例的场景 - 多次运行以发现模式(不是单次测试) - 专家评估结果 - 头对头比较模型在关键任务上的表现 - 随新模型发布持续迭代
GuacaDrone 实验:AI 的"判断倾向"差异¶
Mollick 给多个 AI 一个"牛油果酱无人机配送"创业方案,让它们 1-10 分评分(每个模型测 10 次): - Grok:认为这是个好主意,评分最高 - Microsoft Copilot:也很兴奋 - GPT-5:更持怀疑态度 - Claude 4.5:最怀疑
关键洞察:不同模型在模糊判断题上持续给出 3-4 分的差异,意味着在大规模部署中会持续地将决策引向不同方向。这不是精度问题,而是"态度"问题。
深度分析¶
1. AI 评估的"效度危机"——我们在测什么?¶
Mollick 对 MMLU-Pro 的质疑直击 AI 评估的根本问题:效度(validity)。一个测试如果无法回答"测到了什么能力",它的分数就没有意义。直立人颅容量和 Cheap Trick 专辑的答对率,可能更多反映训练数据的覆盖面而非推理能力。这不是新问题——心理测量学中"结构效度"的概念完全适用——但 AI 社区对此的关注远不够。GDPval 的方法论之所以重要,正是因为它通过"真实专家+真实任务+盲评"三重锚定,建立了更可靠的效度链。
2. Vibes 式测试的隐性价值:探测模型的"世界观"¶
Vibes 测试看似不严谨,实际上在探测一个标准基准无法捕获的维度:模型的隐性偏好和风格特征。当你让模型写"一个只剩 47 个词的人在抱着新生儿"的段落时,你测的不是写作能力——而是模型对"限制条件下如何分配注意力"的隐含策略。Claude 4.5 Sonnet 被认为是强写作模型,不是因为它在某个写作基准上得分高,而是因为 Vibes 测试持续显示它在限制条件下表现出更好的注意力和节制。这种"世界观"探测,是基准测试的结构化盲区。
3. GuacaDrone 实验揭示的"态度偏差"是规模化部署的系统性风险¶
3-4 分的判断差异在单次决策中可能不重要,但在"AI 顾问向数千人提供建议"的场景中,这个差异会被放大为系统性偏差。一个在风险判断上偏乐观 3 分的模型,会在所有涉及风险评估的决策中引入系统性乐观偏差。这不是模型"错误",而是模型"性格"——而性格是无法通过基准测试发现的。 这对组织选择 AI 的启示是:除了能力评估,还需要做"态度审计"——用多个模糊判断题测试模型的风险偏好、创新偏好和保守偏好。
4. "面试"类比的力量与局限¶
将 AI 评估类比为"招聘面试"是一个非常有力的隐喻:你不会仅凭 SAT 分数雇一个 VP,也不应该仅凭 MMLU 分数选择一个将影响数千决策的 AI。但这个类比有一个重要局限:人类面试可以发现"价值观契合度",AI 面试只能发现"偏好一致性"。 人类可以解释为什么持某种观点,AI 的"偏好"是训练数据的统计涌现,不可解释。这意味着 AI 的"面试"更像压力测试(发现边界条件)而非真正的面试(理解动机)。
5. 评估的新范式:从"有多好"到"哪里好、怎么好"¶
Mollick 的文章暗示了 AI 评估范式的转变:从单一维度的"有多好"(MMLU 分数),到多维度的"哪里好"(GDPval 按职业拆分),再到行为维度的"怎么好"(GuacaDrone 式态度测试)。这个三层递进——能力→分布→行为——对 AgentOps 的评估四层模型有直接启发:工具级评估是"有多好",会话级评估是"哪里好",系统级评估需要加入"怎么好"(态度/风险偏好)的维度。
实践启示¶
- 不要仅凭基准分数选择模型:MMLU 从 84% 到 85% 可能什么也说明不了。用你的真实任务测试模型——创建 10-20 个反映你业务场景的测试用例,让多个模型分别完成,专家盲评。
- 给模型做"态度审计":设计 5-10 个模糊判断题(类似 GuacaDrone),每个模型测 10 次。发现模型的风险偏好和创新偏好后,将其与你的业务需求匹配——金融业务可能需要更保守的模型,创意业务可能需要更开放的模型。
- Vibes 测试是快速筛选的有效工具:在正式评估前,用 3-5 个 Vibes 测试快速淘汰明显不适配的模型。节省正式评估的专家时间成本。
- 评估需要随模型更新持续迭代:新模型发布频率约每 3-6 个月,你的评估用例库也需要同步更新。建立可复用的评估流水线,而非一次性测试。
- GDPval 的方法论可以缩小规模复用:你不需要 OpenAI 的资源规模。3-5 个内部专家 + 10-20 个真实业务任务 + 盲评,就可以得到比任何公开基准更有决策价值的评估结果。
相关实体¶
- Agentops Operationalize Agentic Ai At Scale With Amazon Bedr
- Ai Job Interview Model Evaluation Mollick
- The Shape Of Ai Jaggedness Bottlenecks And Salients
- Karpathy 最新访谈从 Vibe Coding 到 Agentic Engineering
- Youre Building Agent Security In The Wrong Order
- MOC