附录|模板库

模板库

这些模板不是“以后再补”的占位条目,而是课程每一周都会落下来的正式交付物。 你在正文里看到的 blueprint、runbook、report,最终都应该能在这里找到对应角色。

Week01|问题定义与系统蓝图

模板 典型文件 用途
项目问题定义模板 problem_definition_v1.md 把业务问题、用户场景、边界和验收方式写清。
系统蓝图模板 system_blueprint_v1.md 把系统对象、模块边界、输入输出和依赖关系画清楚。
Definition of Done 模板 definition_of_done_v1.md 把功能、工程、风险和质量 Done 写成可验收标准。
风险边界检查模板 risk_boundary_checklist_v1.md 提前识别 prompt、tool、data、policy 的风险边界。
交付标准记分卡 delivery_scorecard_v1.md 对齐场景、业务目标、成功指标、风险等级和灰度状态。
上线前质量门禁表 quality_gate_table_v1.md 把质量阈值、评测集、owner 和 fallback action 写成上线门禁。

Week02|输入准入与数据契约

模板 典型文件 用途
数据资产清单模板 asset_inventory_v1.csv 盘点 source、asset、serving object 的边界。
Metadata 最小集模板 metadata_minimums_v1.md 定义运行期至少需要哪些 metadata。
PII 策略矩阵模板 pii_policy_matrix_v1.csv 明确字段、动作、场景三者关系。
数据契约模板 data_contract_template_v1.json 把 schema、语义、策略和质量边界写成系统可消费规则。
Manifest 模板 source_manifest_template_v1.json 把一次 ingest 的输入声明写清楚。

Week03|Ingest 与恢复基线

模板 典型文件 用途
Ingestion Baseline 模板 ingestion_baseline_v1.md 定义 Week03 的最小 ingest 能力边界。
Batch 设计模板 batch_ingestion_design_v1.md 说明 batch ingest 主链路和完整性判断。
Incremental 设计模板 incremental_ingest_strategy_v1.md 写清 cursor、watermark、checkpoint 和 late arrival 边界。
Checkpoint 状态模板 checkpoint_state_v1.md 把状态对象持久化结构写清楚。
资产流设计模板 asset_flow_plan_v1.md 说明 asset graph 如何接住 manifest 和 ingest。
Partition / Backfill 模板 partition_backfill_strategy_v1.md 说明分区和补数策略。
Replay / Backfill 模板 replay_backfill_strategy_v1.md 区分 retry、rerun、replay、restore、backfill。
Runbook 模板 ingestion_runbook_v1.md 把恢复动作收成团队可执行手册。
Delivery Summary 模板 delivery_summary_v1.md 沉淀 smoke、drill、delivery 的结论和证据。

Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线

模板 典型文件 用途
Lakehouse Foundation 模板 lakehouse_foundation_v1.md 说明为什么 Week04 要从“能查表”升级到“有记忆的表”。
Source to Iceberg Mapping 模板 source_to_iceberg_mapping_v1.md 把 Week03 baseline、PostgreSQL / MinIO 输入映射到 Iceberg 表。
Bronze / Silver Table Design 模板 bronze_silver_table_design_v1.md 说明最小 4 表、Bronze / Silver 和字段映射。
Catalog Runtime Plan 模板 catalog_runtime_plan_v1.md 把 PostgreSQL SQL catalog、warehouse、table location 和 devbox 入口写清。
Materialization Report Notes 模板 materialization_report_notes_v1.md 解释 reports/week04/materialization_report.json 里的关键证据。
Time Travel 演示模板 time_travel_demo_report_v1.md 记录 snapshot / history / time travel 是否真实可演示。
Schema Evolution 演示模板 schema_evolution_demo_report_v1.md 记录 schema 演进实验、前后状态和验收结论。
Iceberg Baseline Report 模板 iceberg_baseline_report_v1.md 写清 files、history、snapshots 与当前性能基线。
Course Site Sync Packet 模板 course_site_sync_packet_v1.md 防止课程站点命令、路径和真实 OmniSupport Copilot 仓库脱节。
Week04 Runbook 模板 week04_runbook_v1.md 交付给团队的最小 Iceberg 闭环操作入口。

Week05|Transform 与语义层——把口径写进工程(给 BI 也给 Agent 用)

模板 典型文件 用途
Metric Interface Card 模板 metric_interface_card_v1.md 写清 metric name、business question、grain、source、owner、tests、roles 和 audit。
dbt Model Contract 模板 dbt_model_contract_v1.md 说明 dbt model 的 layer、grain、输入输出、PII 状态和测试文档。
Metric Registry Entry 模板 metric_registry_entry_v1.yml 用 YAML 固定指标、维度、过滤器、角色和时间窗口白名单。
Lineage Impact Notes 模板 lineage_impact_notes_v1.md 记录一次口径变更对 source、marts、registry、tool 和 eval 的影响。
Tool Contract Review Checklist tool_contract_review_checklist_v1.md 检查 schema、registry、白名单、参数化查询、safe view、正负例和 audit。
Week05 Delivery Summary 模板 week05_delivery_summary_v1.md 收口 Week05 指标包的最终结论、证据、边界和后续交接。
Positive / Negative Query Examples 模板 query_examples_v1.md 记录受控 KPI 工具的正例、拒绝例、denial code 和 audit 字段。

Week06|资产化数据工厂——编排、回填与可追溯

模板 典型文件 用途
Data Factory Blueprint 模板 data_factory_blueprint_v1.md 写清 Week06 的做/不做边界、最小资产图和验收口径。
Asset Graph Plan 模板 asset_graph_plan_v1.md 定义 asset key、依赖、job selection 和 optional 节点。
Partition / Backfill Strategy 模板 partition_backfill_strategy_v1.md 把 daily partition、retry、replay、backfill 和 guardrails 写清。
Run Evidence Schema Notes 模板 run_evidence_schema_notes_v1.md 区分 evidence required / optional 字段和 status 规则。
Data Factory Runbook 模板 data_factory_runbook_v1.md 把观察、物化、补数、检查、证据和下游决策写成操作手册。
Delivery Summary 模板 delivery_summary_v1.md 收口 Week06 asset graph、backfill、checks、evidence 与限制。

Week 7:非结构化数据工程

模板 典型文件 用途
Week07 执行蓝图模板 week07_execution_blueprint_v1.md 写清 Week7 的目标、输入、输出、做/不做边界和验收条件。
Parser Adapter 决策模板 parser_adapter_decision_v1.md 说明 Docling-first、Unstructured optional、Azure/OCR/ASR 的边界。
Parse Contract 检查清单 parse_contract_checklist_v1.md 校验 section / chunk / anchor 必须保留的关键字段。
Chunking Strategy 模板 chunking_strategy_v1.md 定义 section_aware_v1 的切片规则和稳定 ID 规则。
Evidence Anchor Contract 模板 evidence_anchor_contract_v1.md 约束 citation 只能消费 evidence anchor,不能由 LLM 临时发明。
Quality Gate Report 模板 quality_gate_report_v1.md 记录 metadata、anchor、page/bbox、PII risk 和抽样质检结果。
Week8 Ready Gate 模板 week8_ready_gate_v1.json 明确哪些 chunks 可以进入 Week8 索引,哪些必须 blocked。

使用建议

  1. 先把正文中要求的最小版本补齐,再考虑做增强版。
  2. 先写边界和判断,再补命令和截图,不要反过来。
  3. blueprint、runbook、report 三类文件不要混写:
    • blueprint 负责设计判断
    • runbook 负责执行步骤
    • report 负责记录结果与证据