Giving your AI a Job Interview¶

Ch11.125 Giving your AI a Job Interview¶

📊 Level ⭐⭐ | 8.3KB | entities/giving-your-ai-a-job-interview.md

Giving your AI a Job Interview¶

Ethan Mollick（One Useful Thing）关于 AI 评估方法论的深度文章。核心论点：标准基准测试（MMLU/GPQA/AIME）虽然整体趋势有意义，但对个人和组织的具体需求几乎无用。你需要像面试候选人一样，系统性地测试 AI 在你实际工作场景中的表现——包括"态度"和"判断倾向"。

→ 原文存档

摘要¶

AI 评估面临三重困境：(1) 基准测试的题目和答案公开，部分模型在训练中已见过；(2) 即便没见过，我们也不清楚这些测试到底在测什么（MMLU-Pro 中的"直立人平均颅容量"和"Cheap Trick 1979 年现场专辑"这类题目，答对意味着什么？）；(3) 测试往往未校准——从 84% 到 85% 和从 40% 到 41% 的难度可能完全不同。Mollick 提出三种互补的评估路径：Vibes 式测试（个人快速感知）、真实世界基准（如 GDPval）、系统性"面试"（组织级部署必做）。

核心要点¶

基准测试的三重问题¶

数据污染：基准题目公开，模型可能无意或有意将其纳入训练数据
效度不明：单个基准测试到底测什么能力？答对"直立人颅容量"说明了什么？
未校准：分数的等距性无法保证，84%→85% 和 40%→41% 的难度可能差一个数量级

三种评估路径¶

1. Vibes 式测试：个人通过大量使用形成的直觉判断 - Simon Willison 的鹈鹕骑车测试 - Mollick 的水獭乘飞机测试 - "星际飞船控制面板" JavaScript 测试 - 优势：快速感知模型的"世界观"和风格差异 - 局限：高度个人化，不可复现，依赖主观感受

2. 真实世界基准（GDPval） - OpenAI 的 GDPval 方法论：收集 14 年平均经验的行业专家 → 生成 4-7 小时的真实项目 → 让 AI 和人类专家分别完成 → 第三组专家盲评 - 发现：最强模型在软件开发和个人财务顾问上胜过人类，但在药剂师、工业工程师、房地产经纪人的任务上输给人类 - 不同模型在不同职业上表现各异：ChatGPT 更擅长销售管理，Claude 更擅长财务顾问

3. 系统性面试（组织级） - 创建反映真实用例的场景 - 多次运行以发现模式（不是单次测试） - 专家评估结果 - 头对头比较模型在关键任务上的表现 - 随新模型发布持续迭代

GuacaDrone 实验：AI 的"判断倾向"差异¶

Mollick 给多个 AI 一个"牛油果酱无人机配送"创业方案，让它们 1-10 分评分（每个模型测 10 次）： - Grok：认为这是个好主意，评分最高 - Microsoft Copilot：也很兴奋 - GPT-5：更持怀疑态度 - Claude 4.5：最怀疑

关键洞察：不同模型在模糊判断题上持续给出 3-4 分的差异，意味着在大规模部署中会持续地将决策引向不同方向。这不是精度问题，而是"态度"问题。

深度分析¶

1. AI 评估的"效度危机"——我们在测什么？¶

Mollick 对 MMLU-Pro 的质疑直击 AI 评估的根本问题：效度（validity）。一个测试如果无法回答"测到了什么能力"，它的分数就没有意义。直立人颅容量和 Cheap Trick 专辑的答对率，可能更多反映训练数据的覆盖面而非推理能力。这不是新问题——心理测量学中"结构效度"的概念完全适用——但 AI 社区对此的关注远不够。GDPval 的方法论之所以重要，正是因为它通过"真实专家+真实任务+盲评"三重锚定，建立了更可靠的效度链。

2. Vibes 式测试的隐性价值：探测模型的"世界观"¶

Vibes 测试看似不严谨，实际上在探测一个标准基准无法捕获的维度：模型的隐性偏好和风格特征。当你让模型写"一个只剩 47 个词的人在抱着新生儿"的段落时，你测的不是写作能力——而是模型对"限制条件下如何分配注意力"的隐含策略。Claude 4.5 Sonnet 被认为是强写作模型，不是因为它在某个写作基准上得分高，而是因为 Vibes 测试持续显示它在限制条件下表现出更好的注意力和节制。这种"世界观"探测，是基准测试的结构化盲区。

3. GuacaDrone 实验揭示的"态度偏差"是规模化部署的系统性风险¶

3-4 分的判断差异在单次决策中可能不重要，但在"AI 顾问向数千人提供建议"的场景中，这个差异会被放大为系统性偏差。一个在风险判断上偏乐观 3 分的模型，会在所有涉及风险评估的决策中引入系统性乐观偏差。这不是模型"错误"，而是模型"性格"——而性格是无法通过基准测试发现的。 这对组织选择 AI 的启示是：除了能力评估，还需要做"态度审计"——用多个模糊判断题测试模型的风险偏好、创新偏好和保守偏好。

4. "面试"类比的力量与局限¶

将 AI 评估类比为"招聘面试"是一个非常有力的隐喻：你不会仅凭 SAT 分数雇一个 VP，也不应该仅凭 MMLU 分数选择一个将影响数千决策的 AI。但这个类比有一个重要局限：人类面试可以发现"价值观契合度"，AI 面试只能发现"偏好一致性"。 人类可以解释为什么持某种观点，AI 的"偏好"是训练数据的统计涌现，不可解释。这意味着 AI 的"面试"更像压力测试（发现边界条件）而非真正的面试（理解动机）。

5. 评估的新范式：从"有多好"到"哪里好、怎么好"¶

Mollick 的文章暗示了 AI 评估范式的转变：从单一维度的"有多好"（MMLU 分数），到多维度的"哪里好"（GDPval 按职业拆分），再到行为维度的"怎么好"（GuacaDrone 式态度测试）。这个三层递进——能力→分布→行为——对 AgentOps 的评估四层模型有直接启发：工具级评估是"有多好"，会话级评估是"哪里好"，系统级评估需要加入"怎么好"（态度/风险偏好）的维度。

实践启示¶

不要仅凭基准分数选择模型：MMLU 从 84% 到 85% 可能什么也说明不了。用你的真实任务测试模型——创建 10-20 个反映你业务场景的测试用例，让多个模型分别完成，专家盲评。
给模型做"态度审计"：设计 5-10 个模糊判断题（类似 GuacaDrone），每个模型测 10 次。发现模型的风险偏好和创新偏好后，将其与你的业务需求匹配——金融业务可能需要更保守的模型，创意业务可能需要更开放的模型。
Vibes 测试是快速筛选的有效工具：在正式评估前，用 3-5 个 Vibes 测试快速淘汰明显不适配的模型。节省正式评估的专家时间成本。
评估需要随模型更新持续迭代：新模型发布频率约每 3-6 个月，你的评估用例库也需要同步更新。建立可复用的评估流水线，而非一次性测试。
GDPval 的方法论可以缩小规模复用：你不需要 OpenAI 的资源规模。3-5 个内部专家 + 10-20 个真实业务任务 + 盲评，就可以得到比任何公开基准更有决策价值的评估结果。

Giving your AI a Job Interview¶

Ch11.125 Giving your AI a Job Interview¶

Giving your AI a Job Interview¶

摘要¶

核心要点¶

基准测试的三重问题¶

三种评估路径¶

GuacaDrone 实验：AI 的"判断倾向"差异¶

深度分析¶

1. AI 评估的"效度危机"——我们在测什么？¶

2. Vibes 式测试的隐性价值：探测模型的"世界观"¶

3. GuacaDrone 实验揭示的"态度偏差"是规模化部署的系统性风险¶

4. "面试"类比的力量与局限¶

5. 评估的新范式：从"有多好"到"哪里好、怎么好"¶

实践启示¶

相关实体¶