跳转至

Automate Schema Generation for Intelligent Document Processing

Ch11.157 Automate Schema Generation for Intelligent Document Processing

📊 Level ⭐⭐ | 7.2KB | entities/automate-schema-generation-for-intelligent-document-processing.md

原文存档

摘要

Title: Automate schema generation for intelligent document processing | Amazon Web Services URL Source: https://aws.amazon.com/blogs/machine-learning/automate-schema-generation-for-intelligent-document-processing/ Published Time: 2026-05-12T07:54:08-08:00 Markdown Content: Before you can extract information from documents using intelligent document processing (IDP) techniques, you need a schema for each document class that defines what to extract. But how do you create schemas when you have thou...

关键要点

  • 技术领域:Machine Learning / Document Processing
  • 来源:AWS Machine Learning Blog
  • 评分:value=8, confidence=9, product=72

链接

相关实体

深度分析

技术架构的核心创新

该解决方案的核心在于自举循环(bootstrap loop)困境的打破:传统 IDP 流程要求先有 schema 才能提取文档,但建立 schema 又需要先了解文档类型,形成死锁。Multi-Document Discovery 通过三个阶段的管道化设计解开了这个结: 1. 视觉Embedding生成 — 使用 Cohere Embed v4 将文档页面转为向量,只取首页。视觉embedding相比OCR文本embedding能捕捉布局、格式等结构化线索,对区分文档类型更有效。 2. 无监督聚类 — k-means算法测试k=2~20,通过silhouette score自动找到最优聚类数k。在OCR-Benchmark数据集上,k=9的聚类达到完美的ARI=1.0和NMI=1.0,证明视觉embedding的质量足以支持全监督文档分类。 3. Agentic Schema生成 — Strands Agent配备Cluster Analysis Tool和Document Viewer Tool,能够智能采样:取中心点、近边缘、边缘三类文档,agent自行决定何时停止采样(early stopping)。生成的schema包含IDP Accelerator特有注解如x-aws-idp-document-typex-aws-idp-evaluation-method

关键技术决策背后的权衡

视觉embedding vs 文本embedding的选择:文章明确指出视觉embedding优于OCR文本,因为"visual embeddings capture layout, formatting, and structural cues that distinguish document types, even when the text content is similar"。但这意味着多页文档仅首页参与聚类,多页packet形式暂不支持,这是当前方案的能力边界。 Silhouette Score作为聚类质量指标:相比Davies-Bouldin Index或其他内部评估指标,silhouette score直接衡量簇内紧密度与簇间分离度,取值范围[-1,1],值越高说明聚类质量越好。选择k=9作为最优值的实验结果表明,该指标对文档类型的自然数量有良好的推断能力。 并行Agent架构:每个cluster由独立Strands Agent处理,通过工具调用实现跨cluster并行而非顺序执行,显著缩短端到端延迟。

Schema生成的评价机制

生成的schema包含三种评估方法,通过x-aws-idp-evaluation-method字段标注:

  • EXACT:字符串字段的精确匹配
  • NUMERIC_EXACT:数值字段的精确匹配
  • LLM:复杂嵌套对象使用LLM评估 这种分级评估设计体现了对IDP场景中不同字段类型差异的深刻理解——简单字段用规则匹配即可,复杂嵌套结构需要LLM的推理能力。

与IDP Accelerator的深度集成

该方案并非独立工具,而是IDP Accelerator Discovery Module的新能力。其价值在于:

  • 自动将生成的schema注入configuration file的class字段
  • 消除"Single Document"模式必须手动提供代表性样例的前置要求
  • 通过Quality Report提供人类可读的schema质量评估报告

实践启示

适用场景判断

推荐使用Multi-Document Discovery的情况

  • 拥有大量未分类文档(成百上千份),且不确定存在多少文档类型
  • 文档类型边界模糊,手动分类耗时且容易出错
  • 需要快速启动IDP项目,无力承担前期schema工程投入
  • 文档主要是单页PDF,且多份文档类型具有视觉可区分性 不适用或需谨慎的情况

  • 多页PDFpacket形式的文档(需预先拆分)

  • 文档类型视觉特征不明显但文本差异大(考虑文本embedding方案)
  • 已明确文档类型并有代表性样例(用Single Document模式更高效)

部署与配置要点

从文章描述的部署流程中可提炼以下关键步骤: 1. 创建空configuration:在IDP Accelerator Console中新建configuration并Wipe All,确保从干净状态开始 2. 准备文档bucket:文档必须放在Discovery Bucket、Test Bucket或Input Bucket之一 3. 监控与结果审查:完成后的Quality Report是必读项,其中会标注重叠cluster和分布不均问题

质量优化策略

根据文章建议的next steps,质量调优的核心策略包括:

  • 合并重叠cluster:Quality Report识别出相似schema时,优先合并而非分别保留
  • 平衡文档分布:不均匀的文档类型分布会影响agent生成可靠性,可考虑在更均衡的子集上重新运行
  • 首轮结果保守使用:初始结果质量不一致时不要急于上线,先手动审查Quality Report

技术选型参考

该方案的架构为文档处理场景提供了以下技术选型参考:

  • Embedding服务:Amazon Bedrock上的Cohere Embed v4(多模态视觉能力)
  • LLM服务:Amazon Bedrock(基础模型)+ Strands Agents(推理框架)
  • 编排层:AWS Step Functions状态机
  • 计算层:AWS Lambda(无服务器) 这一技术栈组合代表了AWS平台上典型的无服务器AI管道架构,其设计模式可复用于其他需要批量文档处理的项目。