附录｜术语表

术语表

术语	解释
Data + AI	用数据工程、系统工程和运行保障把 AI 能力真正接到业务系统上。
RAG	Retrieval-Augmented Generation，先检索再生成的知识服务链路。
Agent	不只回答问题，还会调用工具、执行动作、管理流程状态的系统。
Source / Raw Resource	业务世界里的原始输入对象，例如 ticket、文档、音频、视频、数据库变更流。
Input Asset	已经过准入、可进入工程链路的输入资产。
Serving Object	最终供检索、引用、分析或生成消费的对象。
数据契约（Data Contract）	系统可消费的输入准入规则，至少应覆盖 shape、语义、证据、策略和质量边界。
Source Manifest	一次运行的输入声明，说明这次 ingest 准备读什么、从哪读、如何读。
Gate	进入运行链路前的校验和决策机制，不只是 pass / fail，还可能 quarantine、warn 或 reject。
Metadata	帮系统理解和消费数据的最小上下文信息。
PII	Personally Identifiable Information，能识别或重建个人身份的信息。
Batch Ingest	按批次边界做输入接入和落库的链路。
Incremental Ingest	基于游标、时间戳、LSN 或变更序列持续追加读取的链路。
CDC	Change Data Capture，从源系统的变更流中捕获插入、更新、删除事件。
Cursor	下次应该从哪里继续读取。
Watermark	当前批次已经承认到哪里。
Checkpoint	持久化保存的状态边界，让链路能恢复、回放和继续执行。
Dedupe Key	在输入层判断是不是同一业务事件的键。
Idempotency Key	在写入层防止重复 side effect 的键。
Retry	同一次执行里对瞬时失败进行重试。
Rerun	重新跑同一个作业定义，通常不改变输入语义边界。
Replay	重放同一批或同一来源输入，重建当时那次接入。
Restore	先回到已知可用状态，再决定后续是否 replay / backfill。
Backfill	补历史空洞、补旧分区或补错过窗口。
Runbook	面向团队交接和故障恢复的可执行操作手册。
Provenance	结果来源、过程和责任链信息。
Lakehouse	同时兼顾数据湖灵活性和表状态管理能力的数据底座。
Apache Iceberg	本课程 Week04 使用的开放表格式，用 metadata、snapshot、manifest 和 data file 管理表状态。
PyIceberg	Python 侧操作 Iceberg catalog、table、snapshot 和 metadata 的核心依赖。
Snapshot	某个时刻一张表被提交后的稳定状态。
Manifest List	指向一组 manifest 的索引层。
Iceberg Manifest	描述某次提交涉及哪些 data file / delete file 的元数据对象。
Metadata Log	记录表状态演进历史的元数据链。
Metadata Pointer	指向当前 table metadata 文件的入口，决定读者看到哪一个表状态。
Time Travel	回到某个旧 snapshot 所代表的状态集合。
Schema Evolution	在不破坏状态链的前提下演进表结构。
Hidden Partitioning	将分区逻辑交给表格式管理，不要求业务层直接暴露分区键。
Catalog	管理 namespace、table metadata 和表注册入口的组件。
SQL Catalog	Week04 本地实现里基于 PostgreSQL 的 Iceberg catalog，负责登记 namespace、table 与 metadata 位置。
Warehouse	表数据和元数据默认落盘的根路径。
Table Location	某张表在 warehouse / object storage 中的实际落点，不能和 catalog 概念混在一起。
Data File	Iceberg 表实际承载数据的文件，Week04 当前以 Parquet 文件作为核心对象。
Bronze / Silver	Week04 当前主线中的最小两层表设计：Bronze 保留更接近原始输入的状态，Silver 提供更稳定的消费视图。
Baseline	当前系统在对象、状态、性能和运行习惯上的最小可验收基线。
Materialization Report	Week04 记录 PyIceberg materialize 结果、表名、行数、文件和执行状态的 JSON 证据。
Course Site Sync Packet	OmniSupport Copilot 项目内用于同步课程站点的 Week04 实现说明，防止讲义命令和真实仓库脱节。
Devbox CLI	Week04 学生执行 PyIceberg 命令的 Docker devbox 入口，当前是比 Dagster wrapper 更直接的验证路径。
Transform	将稳定数据状态加工成业务可消费数据产品的过程，本课程 Week05 主要通过 dbt Core 表达。
dbt sources	dbt 中对真实上游表的声明，负责把 source name、schema、table、字段和 owner 写清楚。
Staging Model	dbt 分层中的输入规范层，负责字段重命名、类型转换和最小清洗。
Intermediate Model	承接业务组合逻辑的中间层，避免把复杂 join 或派生逻辑塞进 staging 或 mart。
Mart	面向下游消费的数据产品层，例如 `support_case_mart` 和 `support_kpi_mart`。
Metric Registry	指标注册表，记录 metric name、model、measure、维度白名单、过滤器白名单和 owner。
Semantic Layer	让不同消费方复用同一套指标名、维度、过滤器和口径边界的语义接口层。
MetricFlow	dbt 生态中用于表达和查询语义指标的能力，本课程 Week05 将其作为扩展方向而非学生核心依赖。
Tool Contract	Agent 工具可调用接口的输入输出、权限、审计和负例边界定义。
Controlled Metric Query	受控指标查询路径，Agent 只能通过 schema、registry、白名单和审计约束后的接口查询指标。
Dagster Asset	用代码定义的数据资产，包含 asset key、上游依赖、计算/观察逻辑和 metadata。
Asset Graph	以资产而不是脚本为中心的依赖图，表达哪些数据产品依赖哪些上游状态。
Definitions	Dagster 项目入口，用来注册 assets、jobs、resources、checks 和 schedules。
Materialization	对某个资产执行计算或写入，使它在当前分区/状态下可消费。
Asset Observation	对外部或 source asset 的状态观察，不等同于 materialization。
External Asset	由外部系统负责生成，但在当前 asset graph 中需要被依赖或观测的资产。
Partition	资产可独立运行、回填和验证的边界，Week06 Student Core 默认使用 daily partition。
Asset Check	针对某个资产当前状态的质量判断，例如 row count、duplicate、required field null rate。
Run Evidence	描述一次资产运行事实、质量结果、分区、reason code 和下游决策的证据文件。
Data Factory Runbook	Week06 的可交接操作手册，指导观察、物化、补数、检查、证据记录和下游放行。
Parsed Document	从 raw document 解析出的结构化文档表示，保留 layout、hierarchy、tables、page、bbox 和 provenance。
DoclingDocument	Docling 的统一文档表示，可表达文本、表格、图片占位、标题层级、页码、bbox 与 provenance。
Knowledge Section	Week7 解析后的文档结构单元，通常继承 `section_path`、`page_no`、`bbox` 和 source metadata。
Document Chunk	Week8 索引前的候选文本单元，由结构感知切片生成，不等同于原始 section。
Evidence Anchor	让 chunk 回指原始文档位置的证据对象，是 citation、bad case replay 和质量复核的事实来源。
Section-aware Chunking	先尊重标题层级、表格、页码和 section 边界，再处理 token budget 的切片策略。
BBox	Bounding Box，元素在页面中的坐标范围，常用于 PDF citation 和位置回指。
Source Fingerprint	对原始文档字节计算的稳定指纹，用于确认解析对象和 ingest 对象一致。
Parse Run	一次文档解析运行记录，保存 parser、策略版本、输入输出、状态和错误。
Chunk Quality Sample	对 chunk 和 evidence anchor 的抽样质检记录，用于 Week8 准入和后续回归对比。
Week8 Ready Gate	Week7 输出给 Week8 的索引准入结论，说明哪些 chunks 可消费、哪些必须 blocked。

Week05｜Transform、语义层与受控指标查询补充

Analytics / dbt 术语

术语	小白解释	工程解释 / OmniSupport 例子	常见误区
Analytics Engineering	把业务分析口径做成工程资产	Week05 用 `analytics/`、dbt models、tests、docs 和 reports 交付指标包	以为只是写 SQL 报表
dbt Core	本地运行 dbt project 的开源工具	在 `analytics/` 里执行 `dbt debug`、`dbt build`、`dbt docs generate`	以为 dbt 是数据库或 BI
Source	dbt 承认的真实上游表	`omni_postgres.ticket_fact`、`customer_dim`、`ticket_comment_fact`、`knowledge_doc`	在 source 层写复杂业务逻辑
Staging	把 source 变成稳定输入形状	`stg_tickets` 统一 status、priority、时间和 PII 状态	在 staging 里写最终 KPI
Intermediate	承接跨表组合和复杂派生	`int_support_cases` 汇总 ticket、customer、comment 逻辑	直接暴露给 Agent
Mart	面向下游消费的数据产品层	`support_case_mart`、`support_kpi_mart`	把所有字段都塞进 mart
Grain	一行代表什么	`support_kpi_mart` 是 metric + date + dimensions	先写 SQL，后补粒度解释
Data Test	对模型结果或 source 假设的断言	not null、accepted values、relationships	以为测试只是装饰
Unit Test	用小样本验证 SQL 逻辑边界	reopen、escalation、first response 规则	用它替代数据质量测试
Lineage	依赖关系和影响面	source → staging → marts → registry → tool	只把它当成好看的图
Artifact	dbt 运行生成的机器可读证据	`manifest.json`、`catalog.json`、`run_results.json`	把 target 当主要交付物
`manifest.json`	dbt 项目依赖清单	支撑 lineage、impact notes、资源映射	以为它是日志文件
`catalog.json`	warehouse 列和类型信息	支撑 dbt docs 的真实字段展示	以为它能替代模型描述
`run_results.json`	节点运行状态和耗时	支撑 build evidence 和失败复盘	以为它是完整 lineage

Metric / Semantic / Tool 术语

术语	小白解释	工程解释 / OmniSupport 例子	常见误区
Metric	团队共同承认的指标接口	`p1_ticket_count` 有 source、grain、owner、tests、roles、audit	以为 metric 就是一条 SQL
Measure	可聚合的数值或表达式	`metric_value` + aggregation	把 measure 当完整业务指标
Dimension	分组或过滤的业务属性	`product_line`、`priority`、`org_id`、`category`	以为所有列都能当维度
Entity	可识别或连接业务对象的键	`ticket_id`、`org_id`	把任意字段当 entity
Semantic Model	业务实体、维度、度量和关系的模型	未来可从 registry 迁移到 semantic models	以为必须先买平台
Semantic Graph	语义模型之间的关系图	case、customer、metric、safe view 之间的查询路径	只把它当视觉图
Semantic Layer	让不同系统复用同一指标含义的接口层	Week05 先用本地 registry 落最小语义契约	以为等于 dbt Cloud
MetricFlow	dbt 生态中的语义查询能力	本周作为扩展理解，不是 Student Core 硬依赖	以为必须生产化
Metric Registry	本地指标注册表	`analytics/metric_registry_v1.yml` 固定指标、维度、过滤器、角色和窗口	把它写成自由说明文档
Tool Contract	Agent 工具的输入输出和拒绝边界	`query_support_kpis_v1.json` 定义 schema、denial code、audit	只写正例，不写拒绝
JSON Schema	描述 JSON 结构和约束的标准	required、enum、additionalProperties 约束工具输入	以为 schema 等于权限
Structured Outputs	让模型输出严格匹配结构	连接工具调用结果和可审计 JSON	以为它能替代 runtime guard
Metric Whitelist	允许查询的指标清单	registry 中登记的 6 个核心指标	让 Agent 自由发明指标
Dimension Whitelist	允许切片的维度清单	`product_line`、`priority`、`org_id`、`category`	开放 `customer_email` 等敏感维度
Time Window Guard	查询时间窗口上限	`max_window_days: 31`	让 Agent 查无限历史
Role Filter	基于角色的查询限制	`support_ops`、`instructor`、`admin`	只靠前端隐藏按钮
Parameterized Query	参数化 SQL 查询	runtime 生成确定性 SQL，不拼 raw input	以为它能替代所有安全控制
Audit Log	谁查了什么的证据	actor、metrics、filters、release、row_count	当作可选字段
Denial Code	程序可识别的拒绝原因	`METRIC_DENIED`、`ROLE_DENIED`、`DIMENSION_DENIED`	只返回自然语言错误