Week 7|作业|提交文档资产 v1 与质检报告

把 Week7 收口成可交接的文档资产交付包

这次作业不是提交一批 chunks。

你要提交的是一套能让 Week8 安全消费的文档资产 v1:

schema 清楚、解析可复现、chunk 可回归、anchor 可回指、quality gate 可解释。

作业目标

完成一份 Week7 正式交付包,证明你能把非结构化文档从 raw asset 推进到 Week8-ready document asset。

参考完成时间

2–3 小时

必交工件

工件 文件建议 说明
Week7 执行蓝图 docs/blueprints/week07/week07-execution-blueprint.md 写清做/不做边界、路线和风险
schema 校验结果 reports/week07/schema_validation_summary.md 覆盖 section / chunk / anchor / parse_run / quality_sample
解析输出样例 artifacts/week07/sections.json 至少包含 2 类文档或说明样本限制
chunk 输出样例 artifacts/week07/chunks.json 使用 section_aware_v1
evidence anchors artifacts/week07/evidence_anchors.json 每个 chunk 至少一个 anchor
质量报告 reports/week07/chunk_quality_report.md 包含自动指标与抽样清单
Week8 gate reports/week07/week8_ready_gate.json 明确 pass / warn / fail 与消费规则
bad case 复盘 reports/week07/bad_case_review.md 说明一个解析或切片问题、影响和修复建议

任务 1:schema / contract

补齐或说明以下 schema:

  • knowledge_section.schema.json
  • document_chunk.schema.json
  • evidence_anchor.schema.json
  • parse_run.schema.json
  • chunk_quality_sample.schema.json

必须保留字段:

source_fingerprintdoc_versionpage_nobboxbbox_missing_reasonsection_pathlicense_tagcontent_typeparse_strategy_versionchunk_strategy_versionquality_flagspii_flagdata_release_idtrace_id

任务 2:解析输出

使用 Docling-first 路线生成 normalized sections。

要求:

  • 原始输入优先来自 MinIO s3://omni-raw-documents/...
  • 对读取到的 raw bytes 重新计算 source_fingerprint
  • 指纹不一致时不能继续
  • OCR 默认关闭
  • 解析报告要写清 parser capability

任务 3:chunk / anchor

使用 section_aware_v1

  • 不允许把纯固定长度切片作为主路径
  • overlap 只允许在同一 section 内使用
  • 表格默认不拆散
  • 每个 chunk 必须有稳定 chunk_id
  • 每个 chunk 至少有一个 evidence anchor

任务 4:50+ 抽样质检

如果本地文档不足 50 份,你仍然要提交:

  • 当前样本数
  • sample_shortfall
  • 扩展到 50+ 文档时的抽样流程
  • 当前样本的自动指标
  • 人工抽样复核清单

任务 5:Week8 ready gate

week8_ready_gate.json 至少要说明:

  • gate status:PASS / WARN / FAIL
  • ready chunks 数量
  • blocked chunks 数量
  • hard failures
  • warnings
  • Week8 consumption rule
  • parse / chunk strategy version

加分项

  • Unstructured fallback 对比,但不改变 Student Core 默认路线。
  • OCR optional 路线说明,但不强制学员依赖。
  • visual element placeholder schema。
  • chunk strategy regression 对比。

评分标准

维度 权重 判断方式
结构保真 25% section_path、page、bbox、table 处理是否清楚
证据链完整 25% chunk 是否都有 evidence anchor
质量门禁 25% report 和 ready gate 是否可解释
工程边界 15% 是否避免抢跑 Week8 / 云依赖过重
交付表达 10% blueprint、bad case、限制说明是否清晰

提交格式

docs/blueprints/week07/
artifacts/week07/
reports/week07/
runbooks/week07-unstructured-data.md

作业最重要判断

Week7 交付不是“生成了多少 chunks”,而是:

Week8 是否可以放心消费这些 chunks,并且每个答案引用都能回到真实原文证据。