附录|阅读清单

阅读清单

这份清单不是“多读点资料就会更强”的泛读库,而是按当前课程主线整理出来的补充阅读入口。 优先级很明确:先读能直接帮助你完成当前周交付的,再读扩展材料。

基础主线

主题 推荐材料 为什么值得读
系统边界与工程判断 Designing Data-Intensive Applications 对“状态、日志、复制、批处理、流处理”建立长期判断框架。
数据工程基本盘 Fundamentals of Data Engineering 对 pipeline、ownership、orchestration、lakehouse 有系统化认识。
数据仓库分层 The Data Warehouse Toolkit 帮你理解为什么 Bronze / Silver / Gold 不是随意命名。

Week02|输入准入、契约、Metadata

主题 推荐材料 为什么值得读
Data Contract Data Contract 相关文章与工程实践总结 帮你把“字段清单”升级成“系统准入边界”。
Metadata / Lineage / Provenance 数据治理、血缘与审计相关资料 帮你理解 metadata 为什么先于 chunking 和 serving。
PII / 数据合规 隐私字段分级与数据最小化资料 帮你把 PII 从布尔判断升级成动作矩阵。

Week03|Ingest、状态、恢复

主题 推荐材料 为什么值得读
Batch / Incremental / CDC 批流一体、CDC、exactly-once 限制相关资料 帮你建立 cursor、checkpoint、replay、backfill 的边界判断。
Idempotency / Dedupe 幂等写入与重复保护实践 帮你区分 dedupe key 和 idempotency key。
Runbook / Incident Response 运行手册与故障恢复案例 帮你理解为什么 recovery thinking 需要提前进入设计。

Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线

主题 推荐材料 为什么值得读
Iceberg 表状态与可靠性 Apache Iceberg Reliability 用官方定义理解 snapshot、history、rollback 和 time travel 为什么是“表状态能力”,不是查询小技巧。
Schema / Partition Evolution Apache Iceberg EvolutionPartitioning 帮你把 schema evolution、hidden partitioning 和兼容性判断拆开。
Metadata 与性能维护 Apache Iceberg MaintenancePerformance 帮你理解 file count、metadata、compaction 和 scan planning 为什么会进入 Week04 baseline。
PyIceberg 本地运行 PyIceberg ConfigurationPyIceberg API 对齐课程里的 devbox CLI、SQL catalog、table load 和 metadata inspection。
OmniSupport Copilot Week04 Runbook runbooks/week04/README.md 这是学生执行 Week04 实验时最应该对齐的真实项目入口。
Course Site Sync Packet docs/blueprints/week04/course_site_sync_packet_v1.md 用来确认讲义中的路径和命令是否已经在 omnisupport-copilot 仓库真实存在。

Week05|Transform 与语义层——把口径写进工程(给 BI 也给 Agent 用)

主题 推荐材料 为什么值得读
dbt Core / Modeling dbt Docs: ModelsProject structure Week05 的 sources、staging、intermediate、marts 都从这里建立分层判断。
dbt Sources dbt Docs: Sources 帮你理解为什么真实上游必须先被声明,而不是让下游模型猜表。
dbt Data Tests dbt Docs: Data tests 帮你把“SQL 能跑”升级成“关键口径假设被自动检查”。
dbt Unit Tests dbt Docs: Unit tests 帮你处理 reopen、escalation、first response 这类复杂 SQL 边界逻辑。
dbt Documentation dbt Docs: Documentationdocs generate 帮你理解 docs、catalog 和 lineage 为什么是交付证据。
dbt Artifacts dbt Docs: Artifactsmanifest.jsonrun_results.json 帮你理解 manifest.jsoncatalog.jsonrun_results.json 在 evidence 中的作用。
dbt Semantic Layer dbt Docs: Semantic Layer 帮你理解本地 registry 未来可以迁移到什么平台能力,但本周不把平台作为硬依赖。
Semantic Models / Metrics Semantic modelsMetrics 帮你区分 entity、dimension、measure、metric。
MetricFlow dbt Docs: MetricFlow commands 作为语义查询的扩展理解,不作为 Week05 Student Core 必跑项。
OpenAI Function Calling OpenAI Docs: Function Calling 帮你理解 Agent 为什么应该通过工具契约调用指标。
OpenAI Structured Outputs OpenAI Docs: Structured Outputs 帮你理解严格结构化输出和工具审计的关系。
JSON Schema Understanding JSON Schema 帮你理解 required、enum、additionalProperties 等 schema 约束。
Quarto 写作 CalloutsMermaidHTML code blocks 作为课程站点实现参考,保持代码块、图示和 callout 与整站一致。

Week06|资产化数据工厂——编排、回填与可追溯

主题 推荐材料 为什么值得读
Dagster Assets / Definitions Dagster 官方 assets 与 Definitions 文档 Week06 的核心是把脚本、表和指标组织成可运营 asset graph。
Partitions / Backfills Dagster partitions and backfills 文档 帮你把 Week03 的 replay/backfill 升级成明确分区上的受控恢复动作。
Asset Checks Dagster asset checks 文档 帮你区分 pytest 和数据资产状态检查。
Asset Observations / External Assets Dagster observations 与 external assets 文档 帮你处理 Week04 / Week05 尚未完成时的 optional / skipped 状态。
Runbook / Incident Response 数据平台故障恢复与运行手册资料 帮你把 Data Factory 从个人脚本升级成团队可交接系统。

Week 7:非结构化数据工程

主题 推荐材料 为什么值得读
Docling Document / Chunking Docling 官方文档中的 DoclingDocument、chunking、supported formats 帮你理解为什么 Week7 需要统一文档表示、provenance 和结构感知切片。
Unstructured Elements / Chunking Unstructured 官方文档中的 document elements、metadata、chunking strategies 帮你把 fallback route 当作对照,而不是替代 Week7 主线。
Azure Document Intelligence Layout Layout extraction、bounding polygons、tables 相关文档 作为 Instructor Scale 理解 page / bbox / table extraction 的上限能力。
LlamaIndex / LangChain Splitters Markdown heading splitter、recursive splitter、semantic splitter 帮你理解 fixed-size、heading-aware 和 semantic splitter 的边界。
RAG Citation / Evidence 引用、证据锚点、可追溯检索相关材料 帮你把 Week7 和 Week8 的 citation 责任拆清楚。

RAG / Agent 扩展阅读

主题 推荐材料 为什么值得读
RAG 证据链与引用 检索、引用、evidence serving 实践 帮你理解为什么 Week03 / Week04 的状态层会直接影响 Week08。
Agent 工具调用与执行边界 Tool use、sandbox、审计、权限边界材料 帮你把 Agent 从“能调工具”升级成“受控的工程系统”。

阅读顺序建议

  1. 如果你正在补 Week02,优先读契约、metadata、PII。
  2. 如果你正在补 Week03,优先读 ingest、checkpoint、runbook。
  3. 如果你正在补 Week04,优先读 Iceberg 官方文档和 Lakehouse 架构材料。
  4. 如果你正在补 Week05,优先读 dbt Core 的 models / tests / docs,再读语义层材料。
  5. 如果你正在补 Week06,优先读 Dagster assets、partitions/backfills、asset checks 和 observations。
  6. 如果你正在补 Week7,优先读 DoclingDocument、Docling chunking、Unstructured elements 和 citation/evidence 材料。
  7. 不要一开始就横向读太多。当前周交付要解决什么,就先补那一类阅读。