MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型¶

Ch01.201 MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型¶

📊 Level ⭐⭐ | 17.7KB | entities/mnn-sana-edit-v2端侧运行的图像漫画风编辑大模型.md

摘要¶

MNN-Sana-Edit-V2 是由淘宝 Meta 团队联合杭州电子科技大学研发的端侧图像漫画风编辑大模型，基于 Sana 和 MetaQuery 学术成果创新构建，采用 Qwen3-0.6B 作为冻结的预训练 LLM，通过 Learnable Query 和 Connector 模块桥接文本理解与图像生成，结合 Linear DiT、Deep Compression Autoencoder 等高效架构设计，并依托 MNN 框架实现 4/8bit 量化部署，使全部模型可在手机端本地运行；该模型在 iPhone 17 Pro 上仅需约 15 秒即可完成 512×512 图像的漫画风格转换，较云端方案提速 2.5 倍，同时保障用户隐私与推理效率，目前已集成至 MNN Chat 应用（支持 iOS/Android），相关代码与模型权重已在 GitHub、HuggingFace 及 ModelScope 全面开源。

元数据¶

来源: 微信 (WeChat)
原始URL: https://mp.weixin.qq.com/s/w0V95DVBT_Bf3sGjI1JLrw
入库时间: 2026-05-11
评分: 42

原始内容¶

→ 原文存档

技术架构¶

MNN-Sana-Edit-V2 整体采用 Sana 图像生成模型的网络架构，同时为了更好地利用预训练 LLM 对 Prompt 的理解能力，结合 MetaQuery 论文中提出的 Learnable Query 思想，利用可学习的一组网络参数来桥接预训练 LLM 与图像生成与编辑过程。网络核心组件包括： 1. 预训练 LLM：采用 Qwen3-0.6B，保持 freeze 状态参数不变，用于更好地理解 Prompt 2. Learnable Query：256 维的可学习参数，用于桥接文本理解和图像生成 3. Connector 模块：负责将 LLM 的语义表示对齐到 DiT 的输入空间 4. Reference Image：输入参考图像 5. Noise：输入的高斯噪声 6. DiT 模块：将输入的高斯噪声与参考图进行联合去噪声，得到编辑后的图像

核心技术详解¶

Learnable Query：连接理解与生成的桥梁¶

Learnable Query 是可学习的"问题"向冻结的 LLM "提问"，提取适合图像生成的条件。具体实现上，Learnable Query 作为一组可学习参数，采用正态分布进行初始化。在提取条件时，Learnable Query 与 Text Embedding 一起输入到 LLM 模型中。模型输出的最后 N 个 Hidden States 参数即为生成条件，实际使用时选择 N = 256 个 Learnable Query 参数。

Connector 模块：跨模态对齐¶

Connector 负责将 LLM 的语义表示对齐到 DiT 的输入空间，为图像生成过程中提供了强大的文本理解能力。网络设计上，Connector 模块包含 Connector 网络和 Projector 网络。Connector 网络采用 Transformer 结构，用来高效提取信息；Projector 网络采用线性层作为实现，用来将 Connector 网络输出的特征对齐到 DiT 的维度。

Deep Compression Autoencoder¶

传统的 AE 压缩倍数大多为 8 倍，而 Sana 网络中采用了 32 倍的压缩设计（DC-AE-F32C32），相比别的 8x 的 AEs，latent token 的数量大大减小，既加速了训练，又减少了推理时的开销，适合端侧场景使用。

Linear DiT¶

线性注意力机制是 Sana 论文中的关键创新。传统注意力的计算复杂度为 O(N²)，而 Sana 论文中将 DiT 中的 Attention 层都修改为了 Linear Attention，计算复杂度为 O(N)，减少计算量，加速推理，且通过实验验证，生图无质量损失。

Mix-FFN 模块¶

Mix-FFN 在传统 FFN 的基础上，增加了 Depthwise 卷积，用于更好地捕捉局部信息。具体来说，Mix-FFN 包含三个组件：倒残差块、3×3 深度卷积、Gated Linear Unit。采用 Mix-FFN 的目的是去掉 Position Encoding，达到 NoPE（No Positional Encoding）的效果。

文本编码器：Qwen3-0.6B¶

Sana 论文中采用 Gemma-2 作为文本编码器，而 MNN-Sana-Edit-V2 采用 Qwen3-0.6B 作为预训练 LLM。Qwen3-0.6B 相比 Gemma-2 的 2.6B，参数量更小，且文本理解能力更强，尤其是在中文 Prompt 场景。

Reference Latent¶

图像编辑需要原始图像作为输入，在方案中通过 VAE Encoder 获取源图像的 Latent，作为参考输入 DiT 生图网络，引导编辑过程，保持图像结构一致性，实现更精确的图像编辑。

训练策略¶

三阶段训练¶

为了达到最佳的编辑效果，训练过程中分三个 Stage 来训练网络： Stage 1 — 预训练阶段：针对文本到图像任务，目标是对齐预训练 LLM 和图像生成任务。该阶段只训练 Learnable Query 和 Connector 部分的权重，别的模块保持权重固定。采用 2M 的文本-图像对数据训练约 100K Step。 Stage 2 — 图像生成微调阶段：训练 Learnable Query，Connector 以及图像生成 DiT 模块的权重。基于内部收集的 60K 文本-图像对数据训练约 10K Step。 Stage 3 — 图像编辑微调阶段：在 Stage2 的基础上，增加参考图像作为额外输入，可训练参数同 Stage2。基于内部收集的 10K 图像编辑数据对训练约 100K Step。

MNN 端侧部署优化¶

模型转换¶

在 Pytorch 中训练好权重后，先将 Pytorch 模型转换为 ONNX 格式，然后再转换为 MNN 格式。由于 MNN 在长期的迭代中已经支持了绝大部分的 ONNX 算子，因此模型转换部分的流程比较顺畅。

量化技术¶

MNN-Sana-Edit-V2 推理流程涉及多个模型，包括预训练的 LLM，VAE 的 Encoder 和 Decoder，以及去噪模型 DiT 等。通过合理的量化设置，能够显著减少模型内存占用，提高推理速度，且不对最终效果造成明显损失。具体来说，对预训练的 LLM 模型权重采用了 4Bit 非对称量化，别的模型均采用 8Bit 非对称量化。这个配置能最好地平衡推理性能和生图效果。

真机速度测试¶

在真机上测试 512×512 配置下的图像编辑速度： | 操作系统 | 机器型号 | 芯片版本 | 生成图片整体耗时(s) | |---|---|---|---| | iOS | iPhone 17 Pro（2025年9月发布） | A19 Pro | 14.7 | | iOS | iPhone 16 Pro（2024年10月发布） | A18 Pro | 18 | | iOS | iPhone 15 Pro（2023年9月发布） | A17 Pro | 20 | | Android | 一加13（2024年10月发布） | Snapdragon 8 Elite | 45 | | Android | Xiaomi 12 Pro（2021年12月发布） | Snapdragon 8 Gen 1 | 62 | 经测试，OpenAI 的吉卜力风格图像生成耗时 38s-45s，MNN-Sana-Edit-V2 在 iPhone 17 Pro 上以端侧模型比云端模型的配置做到了 2.5 倍的提速。

运行要求¶

内存占用：5.5G
系统要求：iOS A16 及以上版本，Android 骁龙 8 及以上版本

最优超参说明¶

输入图像尺寸：建议使用正方形图片作为输入，非正方形图片生成效果可能会有下降
输入图像内容：建议输入单张正脸人像，效果最佳，多人或者非人场景效果可能会有下降
输出分辨率：目前模型输出分辨率固定为 512×512
图像编辑提示词：本模型流程中已固定提示词，无需额外设置，修改提示词可能会降低效果
图像生成 step：建议使用 10 步，步数过低会有效果损失，步数增加效果无明显提升，且增加运行耗时

深度分析¶

1. 端侧 AI 图像编辑的技术突破¶

MNN-Sana-Edit-V2 代表了端侧图像生成技术的重要进步。从技术路线看，该模型的成功离不开几个关键创新的组合： 高效架构选择：Sana 的 Linear DiT 将注意力计算复杂度从 O(N²) 降至 O(N)，这是能够在手机端运行的核心前提。传统 Transformer 的二次复杂度在图像生成场景中会造成巨大的计算负担，而线性注意力使得 512×512 分辨率的实时编辑成为可能。 32 倍压缩 AE：Deep Compression Autoencoder（DC-AE-F32C32）将 latent token 数量大幅压缩，相比传统 8 倍压缩方案，显著降低了训练和推理开销。这种设计选择体现了端侧部署中"压缩即正义"的思路。 多阶段训练策略：从预训练到图像生成再到图像编辑的三阶段递进训练，确保了各模块的有效对齐。这种分阶段冻结与解冻的策略，既保证了预训练知识的保留，又实现了任务的逐步适配。

2. 端云协同的新范式¶

MNN-Sana-Edit-V2 展现了端侧 AI 的独特价值主张： 隐私优先：所有处理在本地完成，用户数据不离开设备。在图像编辑这类需要用户上传原图的场景中，端侧部署彻底消除了数据泄漏风险。 延迟体验：15 秒对 38-45 秒的优势，在用户体验层面是质变的。云端方案需要考虑网络往返延迟，而端侧方案仅有本地推理延迟。在弱网或无网环境下，端侧方案几乎是唯一选择。 成本结构：云端图像生成需要持续的 GPU 算力成本，而端侧模型一旦部署，推理成本趋近于零。对高频使用场景，这意味着显著的成本节约。

3. 量化策略的精细平衡¶

文章披露的量化配置——LLM 采用 4bit 非对称量化、其他模型采用 8bit 非对称量化——反映了工程中的精细考量。4bit 量化对 LLM 效果影响更大（因为 LLM 承担文本理解核心任务），而 8bit 对 VAE 和 DiT 的生成质量影响相对可控。这种差异化量化策略是在效果与性能之间取得的精准平衡点。

4. 苹果生态的端侧优势¶

从真机测试数据看，iPhone 17 Pro（14.7s）相比一加13（45s）和小米12 Pro（62s）有显著速度优势，这反映了苹果自研芯片在神经引擎和内存带宽方面的领先。A19 Pro 的机器学习加速能力使得端侧图像生成在 iOS 平台率先达到"可接受"的体验门槛。

5. 技术局限与改进方向¶

当前方案存在明显局限：输出分辨率固定为 512×512，不支持非正方形输入和多人场景。这些限制源于训练数据的配比和模型架构的针对性优化。未来方向可能包括：

超分模块集成以支持更高分辨率输出
动态分辨率适应机制
扩展更多编辑场景（风格迁移、局部编辑等）
多语言 prompt 支持扩展

实践启示¶

对 AI 应用开发者的启示¶

端侧优先的场景选择：MNN-Sana-Edit-V2 的成功表明，图像风格化编辑是端侧 AI 的理想场景——实时性要求高、隐私敏感、算力需求相对可控。若应用场景需要处理高分辨率输出或复杂编辑指令，云端协同可能是更务实的选择。 小模型+Lora/Adapter 的潜力：Qwen3-0.6B 作为冻结的预训练 LLM 仅负责文本理解，图像生成核心能力由 Learnable Query 和 DiT 学习。这意味着未来可以通过 LoRA/Adapter 快速适配不同风格的图像编辑模型，而无需更换整个 LLM。 量化是从训练到部署的必由之路：4bit LLM 量化配合 8bit 其他模块的分级量化策略，展示了如何在不同模型组件间分配量化"预算"。开发者应在项目初期就规划量化方案，而非事后补救。

对端智能基础设施团队的启示¶

MNN 生态的成熟度：从 ONNX 转换流程的顺畅度看，MNN 对常见算子的覆盖已相当完整。对于计划将图像生成模型部署到移动端的团队，MNN 是一条值得考虑的路径，尤其在已有 MNN LLM 部署经验的情况下。 硬件适配的差异化：测试数据显示不同芯片平台的性能差异巨大（iPhone 17 Pro 14.7s vs 小米12 Pro 62s），这要求端智能团队必须建立分层的性能基准测试体系，并为低端设备设计降级策略。 内存优化的极端重要性：5.5G 的内存占用意味着该模型只能运行在中高端设备上。对于内存受限的入门级设备，需要考虑模型蒸馏、进一步量化或任务卸载到云端。

对 AI 研究者的启示¶

Linear Attention 的实用价值：Sana 论文中的 Linear DiT 在学术上可能不是最高精度的方案，但在工程上实现了 O(N) 复杂度与 O(N²) 相当的生成质量的平衡。这提示研究者关注"精度-效率 Pareto 前沿"而非单纯追求指标。 Learnable Query 的范式价值：MetaQuery 框架展示的 Learnable Query 机制，提供了一种冻结预训练 LLM 而仅训练轻量接口的方式。这种范式可以迁移到其他模态（如音频、视频）与 LLM 的对齐任务中。 三阶段训练的工程智慧：预训练对齐、生成微调、编辑微调的递进策略，体现了对任务难度和知识保留的综合考量。相比端到端联合训练，这种方式更容易调试和问题定位。

对产品与商业化团队的启示¶

端侧 AI 的商业价值：MNN-Sana-Edit-V2 通过开源建立技术影响力，然后将能力集成到 MNN Chat 应用中实现用户触达。这种"开源技术+自有产品"的模式，是 AI 能力提供商的常见商业路径。 差异化竞争点：相比 Midjourney、DALL-E 等云端方案，MNN-Sana-Edit-V2 的差异化在于隐私保护、离线可用性和零推理成本。这三个卖点对注重隐私的用户群体和组织级客户有直接吸引力。 移动端图像编辑的未来：随着芯片算力持续提升和模型效率不断优化，端侧图像生成/编辑将成为移动应用的标准能力。当前的 15 秒等待时间在未来 2-3 年内有望降至 3-5 秒，届时这类技术的用户渗透率将大幅提升。