极客时间 AI 数据工程实战营
首页
周次学习
附录
更新
附录|术语、模板与阅读
周次学习
Week01|从 Demo 到上线:AI 为什么不能直接用?
课时1|为什么你的 AI Demo 一上生产就翻车?
课时2|知识库问答 + 工单联动怎么定义 Done
课时3|别一上来就写 RAG:企业级 AI 到底该走哪条数据工程路线
课时4|开营就把工程底座搭起来:项目骨架、风险边界与落地蓝图一次定清
实验|项目基线与系统蓝图初始化
作业|把 Demo 思维收口为工程蓝图
Week02|输入确定性保障——数据盘点与数据契约
课时1|为什么输入问题会先于模型问题摧毁系统
课时2|从资源目录到输入地图:企业数据资产盘点方法论
课时3|多模态最小元数据与 PII 分级:文档、音频、视频、工单怎么统一
课时4|把 Data Contract 做成工程门禁:Schema、语义、质量、兼容性
课时5|契约驱动的采集策略:Manifest、增量窗口、拦截与 Week03 起跑线
实验|四类数据契约与输入门禁最小闭环
作业|资产清单、四类契约 v1 与采集计划
Week03|采集与入湖——Batch / CDC / Stream 的组合拳
Week03|课时1|从“能采上来”到“可重复采集”:为什么 ingest 可靠性决定下游一切
Week03|课时2|批量采集主链路:幂等写入、重跑设计与完整性校验
Week03|课时3|增量与 CDC:cursor、WAL、乱序、去重与“不要轻易承诺 exactly-once”
Week03|课时4|从任务流到资产流:用 Dagster 组织 ingest、分区与回放
Week03|课时5|故障自愈与补数:Replay / Backfill / Runbook 怎么把链路拉回正轨
实验|双源采集最小闭环:ticket + document ingest、state、report、replay
作业|采集最小链路 v1、Runbook v1 与完整性报告
Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线
Week04|课时1|为什么 AI 数据工程需要“有记忆的表”,而不只是能查的表
Week04|课时2|Iceberg 的状态模型:snapshot、manifest、metadata log 与 time travel
Week04|课时3|从 Week3 入湖到 Week4 湖仓:Bronze / Silver 最小表设计与 hidden partitioning
Week04|课时4|PyIceberg 本地最小闭环:Catalog、Warehouse、写入、历史查看、Schema Evolution
Week04|课时5|性能基线不是调优冲动:files / history / snapshots 视角下的 Week4 验收
实验|最小 Iceberg 闭环:catalog、warehouse、Bronze/Silver、time travel
作业|Week04 Lakehouse 最小交付包与 baseline report
Week 5:Transform 与语义层——把口径写进工程(给 BI 也给 Agent 用)
Week05|课时1|为什么 Week5 不是“做几个指标”:把业务口径变成工程接口
Week05|课时2|dbt 分层不是教条:从 sources / staging / intermediate / marts 到 AI 可消费数据产品
Week05|课时3|口径能不能负责,不看 SQL 多炫:tests、docs、lineage 与变更影响分析
Week05|课时4|语义层的现实主义:MetricFlow、Semantic Models 与本地 dbt Core 的真实边界
Week05|课时5|不让 Agent 裸写 SQL:受控指标查询工具 v1 的契约、权限与审计设计
实验|把客服运营口径写进工程:用 dbt 产出 KPI 包,并封装安全指标查询工具 v1
作业|提交 Week5 指标包 v1:形成可负责的口径资产
Week 6:资产化数据工厂——编排、回填与可追溯
Week06|课时1|为什么脚本跑通不等于数据产品可运营
Week06|课时2|Dagster Assets 与资产图:从任务流到资产流
Week06|课时3|Partition / Backfill / Replay:把补数做成可控动作
Week06|课时4|Asset Checks / Metadata / Run Evidence:把“跑过”升级成“可验收”
Week06|课时5|Data Factory Runbook:从个人脚本到团队可交接系统
实验|资产图 + 回填 + 证据闭环
作业|提交 Data Factory v1
Week 7:非结构化数据工程
Week 7|课时1|为什么“抽出文本”不等于非结构化数据工程
Week 7|课时2|智能文档解析:布局、层级、表格、页码、坐标与 provenance
Week 7|课时3|从 section 到 chunk:结构感知切片与 overlap 边界
Week 7|课时4|Evidence Anchor:让每个 chunk 可以回指原文位置
Week 7|课时5|解析质量与切片质检:把 Week8 索引准入做成工程门禁
实验|把 Week3 文档资产升级成 Week8-ready 文档资产
作业|提交文档资产 v1 与质检报告
附录|术语、模板与阅读
术语表
模板库
FAQ
阅读清单
附录
附录入口
附录页用于承载全课程长期复用的参考内容,包括术语、模板、FAQ 和阅读清单。
术语表
进入术语表
模板库
进入模板库
FAQ
进入 FAQ
阅读清单
进入阅读清单