跳转至

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

Ch01.201 MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

📊 Level ⭐⭐ | 17.7KB | entities/mnn-sana-edit-v2端侧运行的图像漫画风编辑大模型.md

摘要

MNN-Sana-Edit-V2 是由淘宝 Meta 团队联合杭州电子科技大学研发的端侧图像漫画风编辑大模型,基于 Sana 和 MetaQuery 学术成果创新构建,采用 Qwen3-0.6B 作为冻结的预训练 LLM,通过 Learnable Query 和 Connector 模块桥接文本理解与图像生成,结合 Linear DiT、Deep Compression Autoencoder 等高效架构设计,并依托 MNN 框架实现 4/8bit 量化部署,使全部模型可在手机端本地运行;该模型在 iPhone 17 Pro 上仅需约 15 秒即可完成 512×512 图像的漫画风格转换,较云端方案提速 2.5 倍,同时保障用户隐私与推理效率,目前已集成至 MNN Chat 应用(支持 iOS/Android),相关代码与模型权重已在 GitHub、HuggingFace 及 ModelScope 全面开源。

元数据

  • 来源: 微信 (WeChat)
  • 原始URL: https://mp.weixin.qq.com/s/w0V95DVBT_Bf3sGjI1JLrw
  • 入库时间: 2026-05-11
  • 评分: 42

原始内容

原文存档

技术架构

MNN-Sana-Edit-V2 整体采用 Sana 图像生成模型的网络架构,同时为了更好地利用预训练 LLM 对 Prompt 的理解能力,结合 MetaQuery 论文中提出的 Learnable Query 思想,利用可学习的一组网络参数来桥接预训练 LLM 与图像生成与编辑过程。 网络核心组件包括: 1. 预训练 LLM:采用 Qwen3-0.6B,保持 freeze 状态参数不变,用于更好地理解 Prompt 2. Learnable Query:256 维的可学习参数,用于桥接文本理解和图像生成 3. Connector 模块:负责将 LLM 的语义表示对齐到 DiT 的输入空间 4. Reference Image:输入参考图像 5. Noise:输入的高斯噪声 6. DiT 模块:将输入的高斯噪声与参考图进行联合去噪声,得到编辑后的图像

核心技术详解

Learnable Query:连接理解与生成的桥梁

Learnable Query 是可学习的"问题"向冻结的 LLM "提问",提取适合图像生成的条件。具体实现上,Learnable Query 作为一组可学习参数,采用正态分布进行初始化。在提取条件时,Learnable Query 与 Text Embedding 一起输入到 LLM 模型中。模型输出的最后 N 个 Hidden States 参数即为生成条件,实际使用时选择 N = 256 个 Learnable Query 参数。

Connector 模块:跨模态对齐

Connector 负责将 LLM 的语义表示对齐到 DiT 的输入空间,为图像生成过程中提供了强大的文本理解能力。网络设计上,Connector 模块包含 Connector 网络和 Projector 网络。Connector 网络采用 Transformer 结构,用来高效提取信息;Projector 网络采用线性层作为实现,用来将 Connector 网络输出的特征对齐到 DiT 的维度。

Deep Compression Autoencoder

传统的 AE 压缩倍数大多为 8 倍,而 Sana 网络中采用了 32 倍的压缩设计(DC-AE-F32C32),相比别的 8x 的 AEs,latent token 的数量大大减小,既加速了训练,又减少了推理时的开销,适合端侧场景使用。

Linear DiT

线性注意力机制是 Sana 论文中的关键创新。传统注意力的计算复杂度为 O(N²),而 Sana 论文中将 DiT 中的 Attention 层都修改为了 Linear Attention,计算复杂度为 O(N),减少计算量,加速推理,且通过实验验证,生图无质量损失。

Mix-FFN 模块

Mix-FFN 在传统 FFN 的基础上,增加了 Depthwise 卷积,用于更好地捕捉局部信息。具体来说,Mix-FFN 包含三个组件:倒残差块、3×3 深度卷积、Gated Linear Unit。采用 Mix-FFN 的目的是去掉 Position Encoding,达到 NoPE(No Positional Encoding)的效果。

文本编码器:Qwen3-0.6B

Sana 论文中采用 Gemma-2 作为文本编码器,而 MNN-Sana-Edit-V2 采用 Qwen3-0.6B 作为预训练 LLM。Qwen3-0.6B 相比 Gemma-2 的 2.6B,参数量更小,且文本理解能力更强,尤其是在中文 Prompt 场景。

Reference Latent

图像编辑需要原始图像作为输入,在方案中通过 VAE Encoder 获取源图像的 Latent,作为参考输入 DiT 生图网络,引导编辑过程,保持图像结构一致性,实现更精确的图像编辑。

训练策略

三阶段训练

为了达到最佳的编辑效果,训练过程中分三个 Stage 来训练网络: Stage 1 — 预训练阶段:针对文本到图像任务,目标是对齐预训练 LLM 和图像生成任务。该阶段只训练 Learnable Query 和 Connector 部分的权重,别的模块保持权重固定。采用 2M 的文本-图像对数据训练约 100K Step。 Stage 2 — 图像生成微调阶段:训练 Learnable Query,Connector 以及图像生成 DiT 模块的权重。基于内部收集的 60K 文本-图像对数据训练约 10K Step。 Stage 3 — 图像编辑微调阶段:在 Stage2 的基础上,增加参考图像作为额外输入,可训练参数同 Stage2。基于内部收集的 10K 图像编辑数据对训练约 100K Step。

MNN 端侧部署优化

模型转换

在 Pytorch 中训练好权重后,先将 Pytorch 模型转换为 ONNX 格式,然后再转换为 MNN 格式。由于 MNN 在长期的迭代中已经支持了绝大部分的 ONNX 算子,因此模型转换部分的流程比较顺畅。

量化技术

MNN-Sana-Edit-V2 推理流程涉及多个模型,包括预训练的 LLM,VAE 的 Encoder 和 Decoder,以及去噪模型 DiT 等。通过合理的量化设置,能够显著减少模型内存占用,提高推理速度,且不对最终效果造成明显损失。具体来说,对预训练的 LLM 模型权重采用了 4Bit 非对称量化,别的模型均采用 8Bit 非对称量化。这个配置能最好地平衡推理性能和生图效果。

真机速度测试

在真机上测试 512×512 配置下的图像编辑速度: | 操作系统 | 机器型号 | 芯片版本 | 生成图片整体耗时(s) | |---|---|---|---| | iOS | iPhone 17 Pro(2025年9月发布) | A19 Pro | 14.7 | | iOS | iPhone 16 Pro(2024年10月发布) | A18 Pro | 18 | | iOS | iPhone 15 Pro(2023年9月发布) | A17 Pro | 20 | | Android | 一加13(2024年10月发布) | Snapdragon 8 Elite | 45 | | Android | Xiaomi 12 Pro(2021年12月发布) | Snapdragon 8 Gen 1 | 62 | 经测试,OpenAI 的吉卜力风格图像生成耗时 38s-45s,MNN-Sana-Edit-V2 在 iPhone 17 Pro 上以端侧模型比云端模型的配置做到了 2.5 倍的提速。

运行要求

  • 内存占用:5.5G
  • 系统要求:iOS A16 及以上版本,Android 骁龙 8 及以上版本

最优超参说明

  • 输入图像尺寸:建议使用正方形图片作为输入,非正方形图片生成效果可能会有下降
  • 输入图像内容:建议输入单张正脸人像,效果最佳,多人或者非人场景效果可能会有下降
  • 输出分辨率:目前模型输出分辨率固定为 512×512
  • 图像编辑提示词:本模型流程中已固定提示词,无需额外设置,修改提示词可能会降低效果
  • 图像生成 step:建议使用 10 步,步数过低会有效果损失,步数增加效果无明显提升,且增加运行耗时

深度分析

1. 端侧 AI 图像编辑的技术突破

MNN-Sana-Edit-V2 代表了端侧图像生成技术的重要进步。从技术路线看,该模型的成功离不开几个关键创新的组合: 高效架构选择:Sana 的 Linear DiT 将注意力计算复杂度从 O(N²) 降至 O(N),这是能够在手机端运行的核心前提。传统 Transformer 的二次复杂度在图像生成场景中会造成巨大的计算负担,而线性注意力使得 512×512 分辨率的实时编辑成为可能。 32 倍压缩 AE:Deep Compression Autoencoder(DC-AE-F32C32)将 latent token 数量大幅压缩,相比传统 8 倍压缩方案,显著降低了训练和推理开销。这种设计选择体现了端侧部署中"压缩即正义"的思路。 多阶段训练策略:从预训练到图像生成再到图像编辑的三阶段递进训练,确保了各模块的有效对齐。这种分阶段冻结与解冻的策略,既保证了预训练知识的保留,又实现了任务的逐步适配。

2. 端云协同的新范式

MNN-Sana-Edit-V2 展现了端侧 AI 的独特价值主张: 隐私优先:所有处理在本地完成,用户数据不离开设备。在图像编辑这类需要用户上传原图的场景中,端侧部署彻底消除了数据泄漏风险。 延迟体验:15 秒对 38-45 秒的优势,在用户体验层面是质变的。云端方案需要考虑网络往返延迟,而端侧方案仅有本地推理延迟。在弱网或无网环境下,端侧方案几乎是唯一选择。 成本结构:云端图像生成需要持续的 GPU 算力成本,而端侧模型一旦部署,推理成本趋近于零。对高频使用场景,这意味着显著的成本节约。

3. 量化策略的精细平衡

文章披露的量化配置——LLM 采用 4bit 非对称量化、其他模型采用 8bit 非对称量化——反映了工程中的精细考量。4bit 量化对 LLM 效果影响更大(因为 LLM 承担文本理解核心任务),而 8bit 对 VAE 和 DiT 的生成质量影响相对可控。这种差异化量化策略是在效果与性能之间取得的精准平衡点。

4. 苹果生态的端侧优势

从真机测试数据看,iPhone 17 Pro(14.7s)相比一加13(45s)和小米12 Pro(62s)有显著速度优势,这反映了苹果自研芯片在神经引擎和内存带宽方面的领先。A19 Pro 的机器学习加速能力使得端侧图像生成在 iOS 平台率先达到"可接受"的体验门槛。

5. 技术局限与改进方向

当前方案存在明显局限:输出分辨率固定为 512×512,不支持非正方形输入和多人场景。这些限制源于训练数据的配比和模型架构的针对性优化。未来方向可能包括:

  • 超分模块集成以支持更高分辨率输出
  • 动态分辨率适应机制
  • 扩展更多编辑场景(风格迁移、局部编辑等)
  • 多语言 prompt 支持扩展

实践启示

对 AI 应用开发者的启示

端侧优先的场景选择:MNN-Sana-Edit-V2 的成功表明,图像风格化编辑是端侧 AI 的理想场景——实时性要求高、隐私敏感、算力需求相对可控。若应用场景需要处理高分辨率输出或复杂编辑指令,云端协同可能是更务实的选择。 小模型+Lora/Adapter 的潜力:Qwen3-0.6B 作为冻结的预训练 LLM 仅负责文本理解,图像生成核心能力由 Learnable Query 和 DiT 学习。这意味着未来可以通过 LoRA/Adapter 快速适配不同风格的图像编辑模型,而无需更换整个 LLM。 量化是从训练到部署的必由之路:4bit LLM 量化配合 8bit 其他模块的分级量化策略,展示了如何在不同模型组件间分配量化"预算"。开发者应在项目初期就规划量化方案,而非事后补救。

对端智能基础设施团队的启示

MNN 生态的成熟度:从 ONNX 转换流程的顺畅度看,MNN 对常见算子的覆盖已相当完整。对于计划将图像生成模型部署到移动端的团队,MNN 是一条值得考虑的路径,尤其在已有 MNN LLM 部署经验的情况下。 硬件适配的差异化:测试数据显示不同芯片平台的性能差异巨大(iPhone 17 Pro 14.7s vs 小米12 Pro 62s),这要求端智能团队必须建立分层的性能基准测试体系,并为低端设备设计降级策略。 内存优化的极端重要性:5.5G 的内存占用意味着该模型只能运行在中高端设备上。对于内存受限的入门级设备,需要考虑模型蒸馏、进一步量化或任务卸载到云端。

对 AI 研究者的启示

Linear Attention 的实用价值:Sana 论文中的 Linear DiT 在学术上可能不是最高精度的方案,但在工程上实现了 O(N) 复杂度与 O(N²) 相当的生成质量的平衡。这提示研究者关注"精度-效率 Pareto 前沿"而非单纯追求指标。 Learnable Query 的范式价值:MetaQuery 框架展示的 Learnable Query 机制,提供了一种冻结预训练 LLM 而仅训练轻量接口的方式。这种范式可以迁移到其他模态(如音频、视频)与 LLM 的对齐任务中。 三阶段训练的工程智慧:预训练对齐、生成微调、编辑微调的递进策略,体现了对任务难度和知识保留的综合考量。相比端到端联合训练,这种方式更容易调试和问题定位。

对产品与商业化团队的启示

端侧 AI 的商业价值:MNN-Sana-Edit-V2 通过开源建立技术影响力,然后将能力集成到 MNN Chat 应用中实现用户触达。这种"开源技术+自有产品"的模式,是 AI 能力提供商的常见商业路径。 差异化竞争点:相比 Midjourney、DALL-E 等云端方案,MNN-Sana-Edit-V2 的差异化在于隐私保护、离线可用性和零推理成本。这三个卖点对注重隐私的用户群体和组织级客户有直接吸引力。 移动端图像编辑的未来:随着芯片算力持续提升和模型效率不断优化,端侧图像生成/编辑将成为移动应用的标准能力。当前的 15 秒等待时间在未来 2-3 年内有望降至 3-5 秒,届时这类技术的用户渗透率将大幅提升。

相关实体