阅读清单
这份清单不是“多读点资料就会更强”的泛读库,而是按当前课程主线整理出来的补充阅读入口。 优先级很明确:先读能直接帮助你完成当前周交付的,再读扩展材料。
基础主线
| 系统边界与工程判断 |
Designing Data-Intensive Applications |
对“状态、日志、复制、批处理、流处理”建立长期判断框架。 |
| 数据工程基本盘 |
Fundamentals of Data Engineering |
对 pipeline、ownership、orchestration、lakehouse 有系统化认识。 |
| 数据仓库分层 |
The Data Warehouse Toolkit |
帮你理解为什么 Bronze / Silver / Gold 不是随意命名。 |
Week03|Ingest、状态、恢复
| Batch / Incremental / CDC |
批流一体、CDC、exactly-once 限制相关资料 |
帮你建立 cursor、checkpoint、replay、backfill 的边界判断。 |
| Idempotency / Dedupe |
幂等写入与重复保护实践 |
帮你区分 dedupe key 和 idempotency key。 |
| Runbook / Incident Response |
运行手册与故障恢复案例 |
帮你理解为什么 recovery thinking 需要提前进入设计。 |
Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线
| Iceberg 表状态与可靠性 |
Apache Iceberg Reliability |
用官方定义理解 snapshot、history、rollback 和 time travel 为什么是“表状态能力”,不是查询小技巧。 |
| Schema / Partition Evolution |
Apache Iceberg Evolution 与 Partitioning |
帮你把 schema evolution、hidden partitioning 和兼容性判断拆开。 |
| Metadata 与性能维护 |
Apache Iceberg Maintenance 与 Performance |
帮你理解 file count、metadata、compaction 和 scan planning 为什么会进入 Week04 baseline。 |
| PyIceberg 本地运行 |
PyIceberg Configuration 与 PyIceberg API |
对齐课程里的 devbox CLI、SQL catalog、table load 和 metadata inspection。 |
| OmniSupport Copilot Week04 Runbook |
runbooks/week04/README.md |
这是学生执行 Week04 实验时最应该对齐的真实项目入口。 |
| Course Site Sync Packet |
docs/blueprints/week04/course_site_sync_packet_v1.md |
用来确认讲义中的路径和命令是否已经在 omnisupport-copilot 仓库真实存在。 |
Week06|资产化数据工厂——编排、回填与可追溯
| Dagster Assets / Definitions |
Dagster 官方 assets 与 Definitions 文档 |
Week06 的核心是把脚本、表和指标组织成可运营 asset graph。 |
| Partitions / Backfills |
Dagster partitions and backfills 文档 |
帮你把 Week03 的 replay/backfill 升级成明确分区上的受控恢复动作。 |
| Asset Checks |
Dagster asset checks 文档 |
帮你区分 pytest 和数据资产状态检查。 |
| Asset Observations / External Assets |
Dagster observations 与 external assets 文档 |
帮你处理 Week04 / Week05 尚未完成时的 optional / skipped 状态。 |
| Runbook / Incident Response |
数据平台故障恢复与运行手册资料 |
帮你把 Data Factory 从个人脚本升级成团队可交接系统。 |
Week 7:非结构化数据工程
| Docling Document / Chunking |
Docling 官方文档中的 DoclingDocument、chunking、supported formats |
帮你理解为什么 Week7 需要统一文档表示、provenance 和结构感知切片。 |
| Unstructured Elements / Chunking |
Unstructured 官方文档中的 document elements、metadata、chunking strategies |
帮你把 fallback route 当作对照,而不是替代 Week7 主线。 |
| Azure Document Intelligence Layout |
Layout extraction、bounding polygons、tables 相关文档 |
作为 Instructor Scale 理解 page / bbox / table extraction 的上限能力。 |
| LlamaIndex / LangChain Splitters |
Markdown heading splitter、recursive splitter、semantic splitter |
帮你理解 fixed-size、heading-aware 和 semantic splitter 的边界。 |
| RAG Citation / Evidence |
引用、证据锚点、可追溯检索相关材料 |
帮你把 Week7 和 Week8 的 citation 责任拆清楚。 |
RAG / Agent 扩展阅读
| RAG 证据链与引用 |
检索、引用、evidence serving 实践 |
帮你理解为什么 Week03 / Week04 的状态层会直接影响 Week08。 |
| Agent 工具调用与执行边界 |
Tool use、sandbox、审计、权限边界材料 |
帮你把 Agent 从“能调工具”升级成“受控的工程系统”。 |
阅读顺序建议
- 如果你正在补 Week02,优先读契约、metadata、PII。
- 如果你正在补 Week03,优先读 ingest、checkpoint、runbook。
- 如果你正在补 Week04,优先读 Iceberg 官方文档和 Lakehouse 架构材料。
- 如果你正在补 Week05,优先读 dbt Core 的 models / tests / docs,再读语义层材料。
- 如果你正在补 Week06,优先读 Dagster assets、partitions/backfills、asset checks 和 observations。
- 如果你正在补 Week7,优先读 DoclingDocument、Docling chunking、Unstructured elements 和 citation/evidence 材料。
- 不要一开始就横向读太多。当前周交付要解决什么,就先补那一类阅读。