极客时间 AI 数据工程实战营
  • 首页
  • 周次学习
  • 附录
  • 更新

极客时间 AI 数据工程实战营

把 Data + AI、RAG、Agent、评测与治理真正做成可交付系统

这门课不是讲零散工具,也不是只看模型效果,而是用一套完整的课程讲义、实验和作业,带你从系统视角走到工程交付。

从 Week01 开始 进入周次学习

主讲人简介

曾丹(Daniel)

曾丹(Daniel)

前 XTransfer 数据智能负责人|前数巅科技大数据负责人|前阿里高级技术专家|现 Data+AI 初创公司首席架构师

我长期聚焦 Data + AI 与 Data Engineering for AI。这门课最核心的价值,不是认识更多模型名词,而是知道怎样把数据底座、检索链路、Agent 系统、评测与治理串成一套真正可交付的工程系统。

15+ 年工程与架构经验 数据平台 + Lakehouse + AI 系统 强调可落地、可运维、可评测

适合谁学

推荐对象

  • 后端、数据工程、平台工程、算法工程从业者
  • 正在做企业 Copilot、RAG、Agent、知识库或数据平台的团队
  • 想把“模型能力”真正接到工程系统上的技术负责人

不适合的人

  • 只想看提示词技巧,不关心工程闭环
  • 只想快速跑一个 Demo,不准备进入实验和作业
  • 完全没有编程与系统基础,希望从零入门的人

已开放周次

ready Week01

Week01|从 Demo 到上线:AI 为什么不能直接用?

为什么很多 AI 项目做得出功能,却交付不了系统?

学习时长
4 节课 + 实验 + 作业
前置基础
具备基本工程认知
本周产出
问题定义、系统蓝图、Done 边界、项目基线
开始学习 进入起点
ready Week02

Week02|输入确定性保障——数据盘点与数据契约

为什么输入失控会比模型能力不足更早摧毁 AI 系统?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先学 Week01
本周产出
数据资产清单 v1、四类 Data Contract v1、采集计划 v1、输入门禁最小闭环
开始学习 进入课时 1
ready Week03

Week03|采集与入湖——Batch / CDC / Stream 的组合拳

为什么“采到数据”不等于链路可靠、更不等于系统可回放?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先完成 Week01–Week02
本周产出
采集最小链路 v1、Runbook v1、完整性报告
开始学习 进入课时 1
ready Week04

Week04|Lakehouse 底座——Iceberg 快照/演进/性能基线

为什么 AI 数据系统必须从“能查到表”升级成“有状态记忆的表”?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先完成 Week01–Week03
本周产出
Week04 lakehouse foundation v1、最小 4 表设计、runbook、baseline report
开始学习 进入课时 1
ready Week05

Week 5:Transform 与语义层——把口径写进工程(给 BI 也给 Agent 用)

为什么指标口径不能停在 SQL 片段里,而要变成可测试、可审计、可被工具安全消费的工程接口?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先完成 Week01–Week04
本周产出
analytics dbt project、support KPI mart、metric registry、受控指标查询工具 v1、Week05 指标包
开始学习 进入课时 1
ready Week06

Week 6:资产化数据工厂——编排、回填与可追溯

为什么脚本跑通仍然不等于数据产品可运营?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先完成 Week01–Week05
本周产出
asset graph、partition/backfill strategy、asset checks、run evidence、Data Factory Runbook v1
开始学习 进入课时 1
ready Week07

Week 7:非结构化数据工程

为什么把 PDF 读成文本还远远不够,文档必须升级成带结构、证据和质量门禁的数据资产?

本周结构
5 课时 + 实验 + 作业
前置基础
建议先完成 Week01–Week06;如果 Week06 尚未接入,可先走 devbox CLI fallback
本周产出
文档资产 v1、sections/chunks/anchors、chunk_quality_report、week8_ready_gate
开始学习 进入课时 1
No matching items

学习路径

系统视角建立

从问题定义、系统蓝图、Done 边界和项目基线出发,先统一“什么叫可交付”。

数据底座与治理

理解输入门禁、资产盘点、数据契约、采集准入和治理基础。

检索与 Agent 闭环

进入非结构化数据工程、RAG、工具使用和 Agent 执行链路。

评测、可观测、成本与上线

把评测、监控、治理、成本和上线收官变成同一套工程闭环。

更新入口

课程内容会持续更新。你可以从 周次学习 直接进入当前已开放内容,也可以从 更新页 追踪最近新增的周次、实验和作业。