附录｜阅读清单

阅读清单

这份清单不是“多读点资料就会更强”的泛读库，而是按当前课程主线整理出来的补充阅读入口。优先级很明确：先读能直接帮助你完成当前周交付的，再读扩展材料。

基础主线

主题	推荐材料	为什么值得读
系统边界与工程判断	Designing Data-Intensive Applications	对“状态、日志、复制、批处理、流处理”建立长期判断框架。
数据工程基本盘	Fundamentals of Data Engineering	对 pipeline、ownership、orchestration、lakehouse 有系统化认识。
数据仓库分层	The Data Warehouse Toolkit	帮你理解为什么 Bronze / Silver / Gold 不是随意命名。

Week02｜输入准入、契约、Metadata

主题	推荐材料	为什么值得读
Data Contract	Data Contract 相关文章与工程实践总结	帮你把“字段清单”升级成“系统准入边界”。
Metadata / Lineage / Provenance	数据治理、血缘与审计相关资料	帮你理解 metadata 为什么先于 chunking 和 serving。
PII / 数据合规	隐私字段分级与数据最小化资料	帮你把 PII 从布尔判断升级成动作矩阵。

Week03｜Ingest、状态、恢复

主题	推荐材料	为什么值得读
Batch / Incremental / CDC	批流一体、CDC、exactly-once 限制相关资料	帮你建立 cursor、checkpoint、replay、backfill 的边界判断。
Idempotency / Dedupe	幂等写入与重复保护实践	帮你区分 dedupe key 和 idempotency key。
Runbook / Incident Response	运行手册与故障恢复案例	帮你理解为什么 recovery thinking 需要提前进入设计。

Week04｜Lakehouse 底座——Iceberg 快照/演进/性能基线

主题	推荐材料	为什么值得读
Iceberg 表状态与可靠性	Apache Iceberg Reliability	用官方定义理解 snapshot、history、rollback 和 time travel 为什么是“表状态能力”，不是查询小技巧。
Schema / Partition Evolution	Apache Iceberg Evolution 与 Partitioning	帮你把 schema evolution、hidden partitioning 和兼容性判断拆开。
Metadata 与性能维护	Apache Iceberg Maintenance 与 Performance	帮你理解 file count、metadata、compaction 和 scan planning 为什么会进入 Week04 baseline。
PyIceberg 本地运行	PyIceberg Configuration 与 PyIceberg API	对齐课程里的 devbox CLI、SQL catalog、table load 和 metadata inspection。
OmniSupport Copilot Week04 Runbook	`runbooks/week04/README.md`	这是学生执行 Week04 实验时最应该对齐的真实项目入口。
Course Site Sync Packet	`docs/blueprints/week04/course_site_sync_packet_v1.md`	用来确认讲义中的路径和命令是否已经在 `omnisupport-copilot` 仓库真实存在。

Week05｜Transform 与语义层——把口径写进工程（给 BI 也给 Agent 用）

主题	推荐材料	为什么值得读
dbt Core / Modeling	dbt Docs: Models 与 Project structure	Week05 的 sources、staging、intermediate、marts 都从这里建立分层判断。
dbt Sources	dbt Docs: Sources	帮你理解为什么真实上游必须先被声明，而不是让下游模型猜表。
dbt Data Tests	dbt Docs: Data tests	帮你把“SQL 能跑”升级成“关键口径假设被自动检查”。
dbt Unit Tests	dbt Docs: Unit tests	帮你处理 reopen、escalation、first response 这类复杂 SQL 边界逻辑。
dbt Documentation	dbt Docs: Documentation 与 docs generate	帮你理解 docs、catalog 和 lineage 为什么是交付证据。
dbt Artifacts	dbt Docs: Artifacts、manifest.json、run_results.json	帮你理解 `manifest.json`、`catalog.json`、`run_results.json` 在 evidence 中的作用。
dbt Semantic Layer	dbt Docs: Semantic Layer	帮你理解本地 registry 未来可以迁移到什么平台能力，但本周不把平台作为硬依赖。
Semantic Models / Metrics	Semantic models 与 Metrics	帮你区分 entity、dimension、measure、metric。
MetricFlow	dbt Docs: MetricFlow commands	作为语义查询的扩展理解，不作为 Week05 Student Core 必跑项。
OpenAI Function Calling	OpenAI Docs: Function Calling	帮你理解 Agent 为什么应该通过工具契约调用指标。
OpenAI Structured Outputs	OpenAI Docs: Structured Outputs	帮你理解严格结构化输出和工具审计的关系。
JSON Schema	Understanding JSON Schema	帮你理解 required、enum、additionalProperties 等 schema 约束。
Quarto 写作	Callouts、Mermaid、HTML code blocks	作为课程站点实现参考，保持代码块、图示和 callout 与整站一致。

Week06｜资产化数据工厂——编排、回填与可追溯

主题	推荐材料	为什么值得读
Dagster Assets / Definitions	Dagster 官方 assets 与 Definitions 文档	Week06 的核心是把脚本、表和指标组织成可运营 asset graph。
Partitions / Backfills	Dagster partitions and backfills 文档	帮你把 Week03 的 replay/backfill 升级成明确分区上的受控恢复动作。
Asset Checks	Dagster asset checks 文档	帮你区分 pytest 和数据资产状态检查。
Asset Observations / External Assets	Dagster observations 与 external assets 文档	帮你处理 Week04 / Week05 尚未完成时的 optional / skipped 状态。
Runbook / Incident Response	数据平台故障恢复与运行手册资料	帮你把 Data Factory 从个人脚本升级成团队可交接系统。

Week 7：非结构化数据工程

主题	推荐材料	为什么值得读
Docling Document / Chunking	Docling 官方文档中的 DoclingDocument、chunking、supported formats	帮你理解为什么 Week7 需要统一文档表示、provenance 和结构感知切片。
Unstructured Elements / Chunking	Unstructured 官方文档中的 document elements、metadata、chunking strategies	帮你把 fallback route 当作对照，而不是替代 Week7 主线。
Azure Document Intelligence Layout	Layout extraction、bounding polygons、tables 相关文档	作为 Instructor Scale 理解 page / bbox / table extraction 的上限能力。
LlamaIndex / LangChain Splitters	Markdown heading splitter、recursive splitter、semantic splitter	帮你理解 fixed-size、heading-aware 和 semantic splitter 的边界。
RAG Citation / Evidence	引用、证据锚点、可追溯检索相关材料	帮你把 Week7 和 Week8 的 citation 责任拆清楚。

RAG / Agent 扩展阅读

主题	推荐材料	为什么值得读
RAG 证据链与引用	检索、引用、evidence serving 实践	帮你理解为什么 Week03 / Week04 的状态层会直接影响 Week08。
Agent 工具调用与执行边界	Tool use、sandbox、审计、权限边界材料	帮你把 Agent 从“能调工具”升级成“受控的工程系统”。

阅读顺序建议

如果你正在补 Week02，优先读契约、metadata、PII。
如果你正在补 Week03，优先读 ingest、checkpoint、runbook。
如果你正在补 Week04，优先读 Iceberg 官方文档和 Lakehouse 架构材料。
如果你正在补 Week05，优先读 dbt Core 的 models / tests / docs，再读语义层材料。
如果你正在补 Week06，优先读 Dagster assets、partitions/backfills、asset checks 和 observations。
如果你正在补 Week7，优先读 DoclingDocument、Docling chunking、Unstructured elements 和 citation/evidence 材料。
不要一开始就横向读太多。当前周交付要解决什么，就先补那一类阅读。