附录|模板库
模板库
这些模板不是“以后再补”的占位条目,而是课程每一周都会落下来的正式交付物。 你在正文里看到的 blueprint、runbook、report,最终都应该能在这里找到对应角色。
Week01|问题定义与系统蓝图
| 模板 | 典型文件 | 用途 |
|---|---|---|
| 项目问题定义模板 | problem_definition_v1.md | 把业务问题、用户场景、边界和验收方式写清。 |
| 系统蓝图模板 | system_blueprint_v1.md | 把系统对象、模块边界、输入输出和依赖关系画清楚。 |
| Definition of Done 模板 | definition_of_done_v1.md | 把功能、工程、风险和质量 Done 写成可验收标准。 |
| 风险边界检查模板 | risk_boundary_checklist_v1.md | 提前识别 prompt、tool、data、policy 的风险边界。 |
| 交付标准记分卡 | delivery_scorecard_v1.md | 对齐场景、业务目标、成功指标、风险等级和灰度状态。 |
| 上线前质量门禁表 | quality_gate_table_v1.md | 把质量阈值、评测集、owner 和 fallback action 写成上线门禁。 |
Week02|输入准入与数据契约
| 模板 | 典型文件 | 用途 |
|---|---|---|
| 数据资产清单模板 | asset_inventory_v1.csv | 盘点 source、asset、serving object 的边界。 |
| Metadata 最小集模板 | metadata_minimums_v1.md | 定义运行期至少需要哪些 metadata。 |
| PII 策略矩阵模板 | pii_policy_matrix_v1.csv | 明确字段、动作、场景三者关系。 |
| 数据契约模板 | data_contract_template_v1.json | 把 schema、语义、策略和质量边界写成系统可消费规则。 |
| Manifest 模板 | source_manifest_template_v1.json | 把一次 ingest 的输入声明写清楚。 |
Week03|Ingest 与恢复基线
| 模板 | 典型文件 | 用途 |
|---|---|---|
| Ingestion Baseline 模板 | ingestion_baseline_v1.md | 定义 Week03 的最小 ingest 能力边界。 |
| Batch 设计模板 | batch_ingestion_design_v1.md | 说明 batch ingest 主链路和完整性判断。 |
| Incremental 设计模板 | incremental_ingest_strategy_v1.md | 写清 cursor、watermark、checkpoint 和 late arrival 边界。 |
| Checkpoint 状态模板 | checkpoint_state_v1.md | 把状态对象持久化结构写清楚。 |
| 资产流设计模板 | asset_flow_plan_v1.md | 说明 asset graph 如何接住 manifest 和 ingest。 |
| Partition / Backfill 模板 | partition_backfill_strategy_v1.md | 说明分区和补数策略。 |
| Replay / Backfill 模板 | replay_backfill_strategy_v1.md | 区分 retry、rerun、replay、restore、backfill。 |
| Runbook 模板 | ingestion_runbook_v1.md | 把恢复动作收成团队可执行手册。 |
| Delivery Summary 模板 | delivery_summary_v1.md | 沉淀 smoke、drill、delivery 的结论和证据。 |
Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线
| 模板 | 典型文件 | 用途 |
|---|---|---|
| Lakehouse Foundation 模板 | lakehouse_foundation_v1.md | 说明为什么 Week04 要从“能查表”升级到“有记忆的表”。 |
| Source to Iceberg Mapping 模板 | source_to_iceberg_mapping_v1.md | 把 Week03 baseline、PostgreSQL / MinIO 输入映射到 Iceberg 表。 |
| Bronze / Silver Table Design 模板 | bronze_silver_table_design_v1.md | 说明最小 4 表、Bronze / Silver 和字段映射。 |
| Catalog Runtime Plan 模板 | catalog_runtime_plan_v1.md | 把 PostgreSQL SQL catalog、warehouse、table location 和 devbox 入口写清。 |
| Materialization Report Notes 模板 | materialization_report_notes_v1.md | 解释 reports/week04/materialization_report.json 里的关键证据。 |
| Time Travel 演示模板 | time_travel_demo_report_v1.md | 记录 snapshot / history / time travel 是否真实可演示。 |
| Schema Evolution 演示模板 | schema_evolution_demo_report_v1.md | 记录 schema 演进实验、前后状态和验收结论。 |
| Iceberg Baseline Report 模板 | iceberg_baseline_report_v1.md | 写清 files、history、snapshots 与当前性能基线。 |
| Course Site Sync Packet 模板 | course_site_sync_packet_v1.md | 防止课程站点命令、路径和真实 OmniSupport Copilot 仓库脱节。 |
| Week04 Runbook 模板 | week04_runbook_v1.md | 交付给团队的最小 Iceberg 闭环操作入口。 |
Week05|Transform 与语义层——把口径写进工程(给 BI 也给 Agent 用)
| 模板 | 典型文件 | 用途 |
|---|---|---|
| Metric Interface Card 模板 | metric_interface_card_v1.md | 写清 metric name、business question、grain、source、owner、tests、roles 和 audit。 |
| dbt Model Contract 模板 | dbt_model_contract_v1.md | 说明 dbt model 的 layer、grain、输入输出、PII 状态和测试文档。 |
| Metric Registry Entry 模板 | metric_registry_entry_v1.yml | 用 YAML 固定指标、维度、过滤器、角色和时间窗口白名单。 |
| Lineage Impact Notes 模板 | lineage_impact_notes_v1.md | 记录一次口径变更对 source、marts、registry、tool 和 eval 的影响。 |
| Tool Contract Review Checklist | tool_contract_review_checklist_v1.md | 检查 schema、registry、白名单、参数化查询、safe view、正负例和 audit。 |
| Week05 Delivery Summary 模板 | week05_delivery_summary_v1.md | 收口 Week05 指标包的最终结论、证据、边界和后续交接。 |
| Positive / Negative Query Examples 模板 | query_examples_v1.md | 记录受控 KPI 工具的正例、拒绝例、denial code 和 audit 字段。 |
Week06|资产化数据工厂——编排、回填与可追溯
| 模板 | 典型文件 | 用途 |
|---|---|---|
| Data Factory Blueprint 模板 | data_factory_blueprint_v1.md | 写清 Week06 的做/不做边界、最小资产图和验收口径。 |
| Asset Graph Plan 模板 | asset_graph_plan_v1.md | 定义 asset key、依赖、job selection 和 optional 节点。 |
| Partition / Backfill Strategy 模板 | partition_backfill_strategy_v1.md | 把 daily partition、retry、replay、backfill 和 guardrails 写清。 |
| Run Evidence Schema Notes 模板 | run_evidence_schema_notes_v1.md | 区分 evidence required / optional 字段和 status 规则。 |
| Data Factory Runbook 模板 | data_factory_runbook_v1.md | 把观察、物化、补数、检查、证据和下游决策写成操作手册。 |
| Delivery Summary 模板 | delivery_summary_v1.md | 收口 Week06 asset graph、backfill、checks、evidence 与限制。 |
Week 7:非结构化数据工程
| 模板 | 典型文件 | 用途 |
|---|---|---|
| Week07 执行蓝图模板 | week07_execution_blueprint_v1.md | 写清 Week7 的目标、输入、输出、做/不做边界和验收条件。 |
| Parser Adapter 决策模板 | parser_adapter_decision_v1.md | 说明 Docling-first、Unstructured optional、Azure/OCR/ASR 的边界。 |
| Parse Contract 检查清单 | parse_contract_checklist_v1.md | 校验 section / chunk / anchor 必须保留的关键字段。 |
| Chunking Strategy 模板 | chunking_strategy_v1.md | 定义 section_aware_v1 的切片规则和稳定 ID 规则。 |
| Evidence Anchor Contract 模板 | evidence_anchor_contract_v1.md | 约束 citation 只能消费 evidence anchor,不能由 LLM 临时发明。 |
| Quality Gate Report 模板 | quality_gate_report_v1.md | 记录 metadata、anchor、page/bbox、PII risk 和抽样质检结果。 |
| Week8 Ready Gate 模板 | week8_ready_gate_v1.json | 明确哪些 chunks 可以进入 Week8 索引,哪些必须 blocked。 |
使用建议
- 先把正文中要求的最小版本补齐,再考虑做增强版。
- 先写边界和判断,再补命令和截图,不要反过来。
- blueprint、runbook、report 三类文件不要混写:
- blueprint 负责设计判断
- runbook 负责执行步骤
- report 负责记录结果与证据