| Data + AI |
用数据工程、系统工程和运行保障把 AI 能力真正接到业务系统上。 |
| RAG |
Retrieval-Augmented Generation,先检索再生成的知识服务链路。 |
| Agent |
不只回答问题,还会调用工具、执行动作、管理流程状态的系统。 |
| Source / Raw Resource |
业务世界里的原始输入对象,例如 ticket、文档、音频、视频、数据库变更流。 |
| Input Asset |
已经过准入、可进入工程链路的输入资产。 |
| Serving Object |
最终供检索、引用、分析或生成消费的对象。 |
| 数据契约(Data Contract) |
系统可消费的输入准入规则,至少应覆盖 shape、语义、证据、策略和质量边界。 |
| Source Manifest |
一次运行的输入声明,说明这次 ingest 准备读什么、从哪读、如何读。 |
| Gate |
进入运行链路前的校验和决策机制,不只是 pass / fail,还可能 quarantine、warn 或 reject。 |
| Metadata |
帮系统理解和消费数据的最小上下文信息。 |
| PII |
Personally Identifiable Information,能识别或重建个人身份的信息。 |
| Batch Ingest |
按批次边界做输入接入和落库的链路。 |
| Incremental Ingest |
基于游标、时间戳、LSN 或变更序列持续追加读取的链路。 |
| CDC |
Change Data Capture,从源系统的变更流中捕获插入、更新、删除事件。 |
| Cursor |
下次应该从哪里继续读取。 |
| Watermark |
当前批次已经承认到哪里。 |
| Checkpoint |
持久化保存的状态边界,让链路能恢复、回放和继续执行。 |
| Dedupe Key |
在输入层判断是不是同一业务事件的键。 |
| Idempotency Key |
在写入层防止重复 side effect 的键。 |
| Retry |
同一次执行里对瞬时失败进行重试。 |
| Rerun |
重新跑同一个作业定义,通常不改变输入语义边界。 |
| Replay |
重放同一批或同一来源输入,重建当时那次接入。 |
| Restore |
先回到已知可用状态,再决定后续是否 replay / backfill。 |
| Backfill |
补历史空洞、补旧分区或补错过窗口。 |
| Runbook |
面向团队交接和故障恢复的可执行操作手册。 |
| Provenance |
结果来源、过程和责任链信息。 |
| Lakehouse |
同时兼顾数据湖灵活性和表状态管理能力的数据底座。 |
| Apache Iceberg |
本课程 Week04 使用的开放表格式,用 metadata、snapshot、manifest 和 data file 管理表状态。 |
| PyIceberg |
Python 侧操作 Iceberg catalog、table、snapshot 和 metadata 的核心依赖。 |
| Snapshot |
某个时刻一张表被提交后的稳定状态。 |
| Manifest List |
指向一组 manifest 的索引层。 |
| Iceberg Manifest |
描述某次提交涉及哪些 data file / delete file 的元数据对象。 |
| Metadata Log |
记录表状态演进历史的元数据链。 |
| Metadata Pointer |
指向当前 table metadata 文件的入口,决定读者看到哪一个表状态。 |
| Time Travel |
回到某个旧 snapshot 所代表的状态集合。 |
| Schema Evolution |
在不破坏状态链的前提下演进表结构。 |
| Hidden Partitioning |
将分区逻辑交给表格式管理,不要求业务层直接暴露分区键。 |
| Catalog |
管理 namespace、table metadata 和表注册入口的组件。 |
| SQL Catalog |
Week04 本地实现里基于 PostgreSQL 的 Iceberg catalog,负责登记 namespace、table 与 metadata 位置。 |
| Warehouse |
表数据和元数据默认落盘的根路径。 |
| Table Location |
某张表在 warehouse / object storage 中的实际落点,不能和 catalog 概念混在一起。 |
| Data File |
Iceberg 表实际承载数据的文件,Week04 当前以 Parquet 文件作为核心对象。 |
| Bronze / Silver |
Week04 当前主线中的最小两层表设计:Bronze 保留更接近原始输入的状态,Silver 提供更稳定的消费视图。 |
| Baseline |
当前系统在对象、状态、性能和运行习惯上的最小可验收基线。 |
| Materialization Report |
Week04 记录 PyIceberg materialize 结果、表名、行数、文件和执行状态的 JSON 证据。 |
| Course Site Sync Packet |
OmniSupport Copilot 项目内用于同步课程站点的 Week04 实现说明,防止讲义命令和真实仓库脱节。 |
| Devbox CLI |
Week04 学生执行 PyIceberg 命令的 Docker devbox 入口,当前是比 Dagster wrapper 更直接的验证路径。 |
| Transform |
将稳定数据状态加工成业务可消费数据产品的过程,本课程 Week05 主要通过 dbt Core 表达。 |
| dbt sources |
dbt 中对真实上游表的声明,负责把 source name、schema、table、字段和 owner 写清楚。 |
| Staging Model |
dbt 分层中的输入规范层,负责字段重命名、类型转换和最小清洗。 |
| Intermediate Model |
承接业务组合逻辑的中间层,避免把复杂 join 或派生逻辑塞进 staging 或 mart。 |
| Mart |
面向下游消费的数据产品层,例如 support_case_mart 和 support_kpi_mart。 |
| Metric Registry |
指标注册表,记录 metric name、model、measure、维度白名单、过滤器白名单和 owner。 |
| Semantic Layer |
让不同消费方复用同一套指标名、维度、过滤器和口径边界的语义接口层。 |
| MetricFlow |
dbt 生态中用于表达和查询语义指标的能力,本课程 Week05 将其作为扩展方向而非学生核心依赖。 |
| Tool Contract |
Agent 工具可调用接口的输入输出、权限、审计和负例边界定义。 |
| Controlled Metric Query |
受控指标查询路径,Agent 只能通过 schema、registry、白名单和审计约束后的接口查询指标。 |
| Dagster Asset |
用代码定义的数据资产,包含 asset key、上游依赖、计算/观察逻辑和 metadata。 |
| Asset Graph |
以资产而不是脚本为中心的依赖图,表达哪些数据产品依赖哪些上游状态。 |
| Definitions |
Dagster 项目入口,用来注册 assets、jobs、resources、checks 和 schedules。 |
| Materialization |
对某个资产执行计算或写入,使它在当前分区/状态下可消费。 |
| Asset Observation |
对外部或 source asset 的状态观察,不等同于 materialization。 |
| External Asset |
由外部系统负责生成,但在当前 asset graph 中需要被依赖或观测的资产。 |
| Partition |
资产可独立运行、回填和验证的边界,Week06 Student Core 默认使用 daily partition。 |
| Asset Check |
针对某个资产当前状态的质量判断,例如 row count、duplicate、required field null rate。 |
| Run Evidence |
描述一次资产运行事实、质量结果、分区、reason code 和下游决策的证据文件。 |
| Data Factory Runbook |
Week06 的可交接操作手册,指导观察、物化、补数、检查、证据记录和下游放行。 |
| Parsed Document |
从 raw document 解析出的结构化文档表示,保留 layout、hierarchy、tables、page、bbox 和 provenance。 |
| DoclingDocument |
Docling 的统一文档表示,可表达文本、表格、图片占位、标题层级、页码、bbox 与 provenance。 |
| Knowledge Section |
Week7 解析后的文档结构单元,通常继承 section_path、page_no、bbox 和 source metadata。 |
| Document Chunk |
Week8 索引前的候选文本单元,由结构感知切片生成,不等同于原始 section。 |
| Evidence Anchor |
让 chunk 回指原始文档位置的证据对象,是 citation、bad case replay 和质量复核的事实来源。 |
| Section-aware Chunking |
先尊重标题层级、表格、页码和 section 边界,再处理 token budget 的切片策略。 |
| BBox |
Bounding Box,元素在页面中的坐标范围,常用于 PDF citation 和位置回指。 |
| Source Fingerprint |
对原始文档字节计算的稳定指纹,用于确认解析对象和 ingest 对象一致。 |
| Parse Run |
一次文档解析运行记录,保存 parser、策略版本、输入输出、状态和错误。 |
| Chunk Quality Sample |
对 chunk 和 evidence anchor 的抽样质检记录,用于 Week8 准入和后续回归对比。 |
| Week8 Ready Gate |
Week7 输出给 Week8 的索引准入结论,说明哪些 chunks 可消费、哪些必须 blocked。 |