跳转至

腾讯混元新里程碑:Hy3 preview 发布开源,Agent 表现全面提升

Ch04.121 腾讯混元新里程碑:Hy3 preview 发布开源,Agent 表现全面提升

📊 Level ⭐⭐ | 14.5KB | entities/腾讯混元新里程碑hy3-preview-发布开源agent-表现全面提升.md

腾讯混元新里程碑Hy3 Preview 发布开源Agent 表现全面提升

腾讯混元新里程碑:Hy3 preview 发布开源,Agent 表现全面提升

** 4 月 23 日, ** 腾讯混元 Hy3 preview 语言模型发布并开源 。 这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。 这 是 混元 重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力 及推理性能上 实现了大幅的提升 。 2026 年2月,腾讯混元重建了预训练和强化学习的基础设施 , 以及模型追求实用性的三个原则 : 1、 能力体系化: 不推崇 "偏科",因为即使是代码智能体 的单一应用, 也 涉及 推理、长文 、 指令 、对话、代码、工具等多种能力的 深度协同 。 2、 评测 真实性 : 主动跳出易被 "刷榜"的公开 榜单 ,通过 自建题目、最新 考试、 人工评测、 产品 众测等多种方式评估和改进模型 的 "真实战斗力"。 3、 性价比 追求 :实用性离不开商业合理性 ,深度协同模型架构和推理框架的设计 ,大幅降低任务成本,让智能用得起、用得好。 Hy3 preview可以视为混元快速探索实用性大模型、解决真实世界问题的一个开端。 腾讯首席 AI科学家姚顺雨表示,Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯 众多 产品的深 度 C o -D esign, 持续提升 模型在真实场景中的 综合 表现, 并开始 探索特色 模型 能力。 目前, Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享 等 首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外, Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。

** Hy3 preview主打全面实用性,Agent能力大幅提升 **

多个测评结果显示, Hy3 preview 模型能力全面提升。 ** 1 、出色的 ** ** 上下文 ** ** 学习和指令遵循能力 ** 在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于 腾讯 业务场景的灵感, 腾讯混元 提出了 CL-bench和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。 ** 2 、 ** ** 复杂推理能力 ** ** 突出,清华数学博士资格考试国内分数最高 ** 复杂推理能力是模型解决各种问题的基础。 H y 3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度 理工科推理任务 中表现突出,并在最新的清华大学求真书院数学博资考 (26春) 和 全国中学生生物学联赛(CHSBO 2025) 中取得优异成绩 ,展现了可泛化的强推理能力。 ** 3 、代码与智能体提升最为显著, ** ** 展现出 ** ** 高性价比 ** 代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,腾讯混元以较快的速度 在 SWE-Bench Verified、Terminal-Bench 2.0 等主流 代码智能体 基准以及 BrowseComp、WideSearch 等 主流搜索智能体基准 中取得了有竞争力的 结果。 在数字世界中, 代码 关注的是模型在开发环境中的执行能力, 搜索 则聚焦于开放信息空间中的检索、筛选与整合能力 , 两者共同决定了模型在复杂 智能体 场景 (例如 OpenClaw ) 中是否真正具备可用性。 Hy3 p review 在 ClawEval 和 WildClawBench 等评测中表现突出,表明 我们的智能体 能力 正在稳步 走向 全面与实用。 除了公开榜单,腾讯混元还 进一步构建 了多个内部的评测集 ,对模型在 真实 开发场景中的表现进行评估。结果表明,无论是在后端工程任务 集 H y -Backend,贴近真实 用户 开发 交互 的 H y -Vibe Bench, 还是高难度软件工程开发任务集 Hy-SWE Max 上, H y 3 preview 均体现出了强竞争力 。 比较各个开源模型的大小与智能体综合表现, Hy3 p review 展现出 高性价比。

** 腾讯核心业务已全面接入,多主线AI 产品验证收益明显 **

正式上线之前, Hy3 preview在腾讯主要AI 业务进行了产品测试,获得明显正收益。 在 元宝 端, 混元与元宝进行了深度 Co-Design。一方面 , 针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面 , 对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同,为用户带来了更智能且更具 "活人感"的交互体验。 在 ima知识库问答和通用问答两个场景下,测试结果显示,H y 3 preview 处理长文的能力出色,特别是检索类任务,在回答信息的准确性、覆盖度和全面性上表现较好。 在 CodeBuddy 、 WorkBuddy产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+ 。 实际用户环境中 , H y3 preview 已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。 在公众号 AI分身和 AI 客服的场景专项评测中,Hy3 preview 展现出相比 Hy 2 更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,面对模糊提问、短句追问和多轮对话时,能够更准确地把握用户诉求,并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合 AI 分身和 AI 客服的角色,过度脑补、主观代入和情绪化表达显著减少,使整体交互体验更贴近"可信、自然、高效"的回复目标。 在 和平精英 AI NPC 场景评测 中 , 和平精英 团队 第一时间在 Hy3 preview上线后基于 AI N

深度分析

技术创新的核心突破

快慢思考融合架构:Hy3 preview 采用混合专家(MoE)架构实现快慢思考融合,总参数 295B、激活参数 21B,在保持高效推理的同时兼顾深度思考能力。这种架构设计使模型能够处理从快速问答到复杂推理的广泛任务谱系。 三维实用性原则:腾讯混元提出的能力体系化、评测真实性、性价比追求三个原则,体现出对"实用大模型"的深刻理解。能力体系化避免了单一能力的"偏科"陷阱;评测真实性跳出公开榜单的刷榜困境;性价比追求确保技术落地的商业可行性。 强化学习规模化:2026 年 2 月完成预训练和强化学习基础设施重建后,Hy3 preview 在代码智能体和搜索智能体任务上的显著提升,直接验证了强化学习规模提升对智能体能力的驱动效应。

战略意图解析

开源的双重价值:选择开源 Hy3 preview,既是为了获取开源社区的真实反馈来优化正式版,也是在激烈的大模型竞争中建立生态影响力的战略布局。通过开源吸引开发者、构建应用生态,是大厂通行的策略路径。 全链路自研的雄心:从预训练基础设施重建到推理框架深度协同优化,腾讯混元展现出全链路自研的战略意图。这种端到端把控能力,使其能够在架构创新、训练效率、推理成本等维度进行联合优化,实现"智能密度最优"的目标。 Agent 时代的卡位:代码智能体(CodeBuddy、OpenClaw)和搜索智能体(BrowseComp、WideSearch)的突出表现,表明腾讯混元正在为 AI Agent 时代进行战略性卡位。Agent 能力决定了大模型在真实复杂场景中的可用性,是通向实用化的关键路径。

竞争格局影响

国内大模型竞争新态势:Hy3 preview 在数学博士资格考试国内分数最高、Agent 综合表现优异、推理效率提升 40% 等指标,对国内大模型竞争格局产生深远影响。这不仅是一次技术突破,更是腾讯混元向"中国最实用大模型"目标迈进的重要里程碑。 性价比战争开启:TokenHub 上输入价格最低 1.2 元/百万 tokens、输出 4 元/百万 tokens 的定价,结合 28 元/月的个人版套餐,将大模型使用成本推向新低。这种"智能密度最优"策略,将推动行业进入以性价比为核心竞争维度的阶段。

实践启示

对 AI 开发团队的启示

  1. 智能体能力是核心竞争力:Hy3 preview 在 SWE-Bench、Terminal-Bench、ClawEval 等智能体基准上的表现说明,Agent 能力正在成为评估大模型实用价值的关键维度。开发团队应将智能体能力纳入模型选型的核心指标。
  2. 强化学习规模化是提升路径:腾讯混元的实践经验表明,强化学习任务规模的系统性提升,是驱动智能体能力突破的有效路径。这为模型优化提供了明确的技术方向。
  3. 内部评测体系价值:自建内部评测集(Hy-Backend、Hy-Vibe Bench、Hy-SWE Max)能够更真实地反映模型在实际场景中的表现,过度依赖公开榜单可能误导优化方向。

对企业 AI 应用的启示

  1. 场景驱动的模型优化:元宝案例显示,模型与产品的深度协同调优(意图理解、文风、情商等),能够带来更贴合实际需求的体验。企业应积极参与模型调优,而非被动接受通用模型。
  2. 真实场景验证的重要性:在 CodeBuddy、WorkBuddy 上 495 步复杂工作流的成功运行,证明了大模型驱动真实业务流程的可行性。企业应积极探索将 AI 能力嵌入核心业务场景。
  3. 成本效益的双重考量:Hy3 preview 在保持高性能的同时实现 40% 推理效率提升和显著成本下降,使 AI 应用的经济可行性大幅改善。企业 AI 落地的成本门槛正在降低。

对 AI 行业的启示

  1. 实用性成为主战场:腾讯混元的三原则和 Hy3 preview 的性能表现表明,大模型竞争正在从 benchmark 刷榜转向真实场景实用性的较量,"用得起、用得好"将成为核心竞争力。
  2. 开源生态的战略价值:开源成为大厂建立影响力、获取反馈、构建生态的重要手段,这将继续推动头部模型的开放进程,惠及整个 AI 开发者社区。
  3. 全链路优化的竞争壁垒:腾讯混元"预训练基础设施→强化学习→推理框架"全链路协同优化的实践,显示出自研基础设施已成为头部玩家的核心竞争壁垒。

相关实体