Week 7|作业|提交文档资产 v1 与质检报告
把 Week7 收口成可交接的文档资产交付包
这次作业不是提交一批 chunks。
你要提交的是一套能让 Week8 安全消费的文档资产 v1:
schema 清楚、解析可复现、chunk 可回归、anchor 可回指、quality gate 可解释。
作业目标
完成一份 Week7 正式交付包,证明你能把非结构化文档从 raw asset 推进到 Week8-ready document asset。
参考完成时间
2–3 小时
必交工件
| 工件 | 文件建议 | 说明 |
|---|---|---|
| Week7 执行蓝图 | docs/blueprints/week07/week07-execution-blueprint.md |
写清做/不做边界、路线和风险 |
| schema 校验结果 | reports/week07/schema_validation_summary.md |
覆盖 section / chunk / anchor / parse_run / quality_sample |
| 解析输出样例 | artifacts/week07/sections.json |
至少包含 2 类文档或说明样本限制 |
| chunk 输出样例 | artifacts/week07/chunks.json |
使用 section_aware_v1 |
| evidence anchors | artifacts/week07/evidence_anchors.json |
每个 chunk 至少一个 anchor |
| 质量报告 | reports/week07/chunk_quality_report.md |
包含自动指标与抽样清单 |
| Week8 gate | reports/week07/week8_ready_gate.json |
明确 pass / warn / fail 与消费规则 |
| bad case 复盘 | reports/week07/bad_case_review.md |
说明一个解析或切片问题、影响和修复建议 |
任务 1:schema / contract
补齐或说明以下 schema:
knowledge_section.schema.jsondocument_chunk.schema.jsonevidence_anchor.schema.jsonparse_run.schema.jsonchunk_quality_sample.schema.json
必须保留字段:
source_fingerprint、doc_version、page_no、bbox、bbox_missing_reason、section_path、license_tag、content_type、parse_strategy_version、chunk_strategy_version、quality_flags、pii_flag、data_release_id、trace_id。
任务 2:解析输出
使用 Docling-first 路线生成 normalized sections。
要求:
- 原始输入优先来自 MinIO
s3://omni-raw-documents/... - 对读取到的 raw bytes 重新计算
source_fingerprint - 指纹不一致时不能继续
- OCR 默认关闭
- 解析报告要写清 parser capability
任务 3:chunk / anchor
使用 section_aware_v1:
- 不允许把纯固定长度切片作为主路径
- overlap 只允许在同一 section 内使用
- 表格默认不拆散
- 每个 chunk 必须有稳定
chunk_id - 每个 chunk 至少有一个 evidence anchor
任务 4:50+ 抽样质检
如果本地文档不足 50 份,你仍然要提交:
- 当前样本数
sample_shortfall- 扩展到 50+ 文档时的抽样流程
- 当前样本的自动指标
- 人工抽样复核清单
任务 5:Week8 ready gate
week8_ready_gate.json 至少要说明:
- gate status:PASS / WARN / FAIL
- ready chunks 数量
- blocked chunks 数量
- hard failures
- warnings
- Week8 consumption rule
- parse / chunk strategy version
加分项
- Unstructured fallback 对比,但不改变 Student Core 默认路线。
- OCR optional 路线说明,但不强制学员依赖。
- visual element placeholder schema。
- chunk strategy regression 对比。
评分标准
| 维度 | 权重 | 判断方式 |
|---|---|---|
| 结构保真 | 25% | section_path、page、bbox、table 处理是否清楚 |
| 证据链完整 | 25% | chunk 是否都有 evidence anchor |
| 质量门禁 | 25% | report 和 ready gate 是否可解释 |
| 工程边界 | 15% | 是否避免抢跑 Week8 / 云依赖过重 |
| 交付表达 | 10% | blueprint、bad case、限制说明是否清晰 |
提交格式
docs/blueprints/week07/
artifacts/week07/
reports/week07/
runbooks/week07-unstructured-data.md
作业最重要判断
Week7 交付不是“生成了多少 chunks”,而是:
Week8 是否可以放心消费这些 chunks,并且每个答案引用都能回到真实原文证据。