附录|术语表

术语表

术语 解释
Data + AI 用数据工程、系统工程和运行保障把 AI 能力真正接到业务系统上。
RAG Retrieval-Augmented Generation,先检索再生成的知识服务链路。
Agent 不只回答问题,还会调用工具、执行动作、管理流程状态的系统。
Source / Raw Resource 业务世界里的原始输入对象,例如 ticket、文档、音频、视频、数据库变更流。
Input Asset 已经过准入、可进入工程链路的输入资产。
Serving Object 最终供检索、引用、分析或生成消费的对象。
数据契约(Data Contract) 系统可消费的输入准入规则,至少应覆盖 shape、语义、证据、策略和质量边界。
Source Manifest 一次运行的输入声明,说明这次 ingest 准备读什么、从哪读、如何读。
Gate 进入运行链路前的校验和决策机制,不只是 pass / fail,还可能 quarantine、warn 或 reject。
Metadata 帮系统理解和消费数据的最小上下文信息。
PII Personally Identifiable Information,能识别或重建个人身份的信息。
Batch Ingest 按批次边界做输入接入和落库的链路。
Incremental Ingest 基于游标、时间戳、LSN 或变更序列持续追加读取的链路。
CDC Change Data Capture,从源系统的变更流中捕获插入、更新、删除事件。
Cursor 下次应该从哪里继续读取。
Watermark 当前批次已经承认到哪里。
Checkpoint 持久化保存的状态边界,让链路能恢复、回放和继续执行。
Dedupe Key 在输入层判断是不是同一业务事件的键。
Idempotency Key 在写入层防止重复 side effect 的键。
Retry 同一次执行里对瞬时失败进行重试。
Rerun 重新跑同一个作业定义,通常不改变输入语义边界。
Replay 重放同一批或同一来源输入,重建当时那次接入。
Restore 先回到已知可用状态,再决定后续是否 replay / backfill。
Backfill 补历史空洞、补旧分区或补错过窗口。
Runbook 面向团队交接和故障恢复的可执行操作手册。
Provenance 结果来源、过程和责任链信息。
Lakehouse 同时兼顾数据湖灵活性和表状态管理能力的数据底座。
Apache Iceberg 本课程 Week04 使用的开放表格式,用 metadata、snapshot、manifest 和 data file 管理表状态。
PyIceberg Python 侧操作 Iceberg catalog、table、snapshot 和 metadata 的核心依赖。
Snapshot 某个时刻一张表被提交后的稳定状态。
Manifest List 指向一组 manifest 的索引层。
Iceberg Manifest 描述某次提交涉及哪些 data file / delete file 的元数据对象。
Metadata Log 记录表状态演进历史的元数据链。
Metadata Pointer 指向当前 table metadata 文件的入口,决定读者看到哪一个表状态。
Time Travel 回到某个旧 snapshot 所代表的状态集合。
Schema Evolution 在不破坏状态链的前提下演进表结构。
Hidden Partitioning 将分区逻辑交给表格式管理,不要求业务层直接暴露分区键。
Catalog 管理 namespace、table metadata 和表注册入口的组件。
SQL Catalog Week04 本地实现里基于 PostgreSQL 的 Iceberg catalog,负责登记 namespace、table 与 metadata 位置。
Warehouse 表数据和元数据默认落盘的根路径。
Table Location 某张表在 warehouse / object storage 中的实际落点,不能和 catalog 概念混在一起。
Data File Iceberg 表实际承载数据的文件,Week04 当前以 Parquet 文件作为核心对象。
Bronze / Silver Week04 当前主线中的最小两层表设计:Bronze 保留更接近原始输入的状态,Silver 提供更稳定的消费视图。
Baseline 当前系统在对象、状态、性能和运行习惯上的最小可验收基线。
Materialization Report Week04 记录 PyIceberg materialize 结果、表名、行数、文件和执行状态的 JSON 证据。
Course Site Sync Packet OmniSupport Copilot 项目内用于同步课程站点的 Week04 实现说明,防止讲义命令和真实仓库脱节。
Devbox CLI Week04 学生执行 PyIceberg 命令的 Docker devbox 入口,当前是比 Dagster wrapper 更直接的验证路径。
Transform 将稳定数据状态加工成业务可消费数据产品的过程,本课程 Week05 主要通过 dbt Core 表达。
dbt sources dbt 中对真实上游表的声明,负责把 source name、schema、table、字段和 owner 写清楚。
Staging Model dbt 分层中的输入规范层,负责字段重命名、类型转换和最小清洗。
Intermediate Model 承接业务组合逻辑的中间层,避免把复杂 join 或派生逻辑塞进 staging 或 mart。
Mart 面向下游消费的数据产品层,例如 support_case_martsupport_kpi_mart
Metric Registry 指标注册表,记录 metric name、model、measure、维度白名单、过滤器白名单和 owner。
Semantic Layer 让不同消费方复用同一套指标名、维度、过滤器和口径边界的语义接口层。
MetricFlow dbt 生态中用于表达和查询语义指标的能力,本课程 Week05 将其作为扩展方向而非学生核心依赖。
Tool Contract Agent 工具可调用接口的输入输出、权限、审计和负例边界定义。
Controlled Metric Query 受控指标查询路径,Agent 只能通过 schema、registry、白名单和审计约束后的接口查询指标。
Dagster Asset 用代码定义的数据资产,包含 asset key、上游依赖、计算/观察逻辑和 metadata。
Asset Graph 以资产而不是脚本为中心的依赖图,表达哪些数据产品依赖哪些上游状态。
Definitions Dagster 项目入口,用来注册 assets、jobs、resources、checks 和 schedules。
Materialization 对某个资产执行计算或写入,使它在当前分区/状态下可消费。
Asset Observation 对外部或 source asset 的状态观察,不等同于 materialization。
External Asset 由外部系统负责生成,但在当前 asset graph 中需要被依赖或观测的资产。
Partition 资产可独立运行、回填和验证的边界,Week06 Student Core 默认使用 daily partition。
Asset Check 针对某个资产当前状态的质量判断,例如 row count、duplicate、required field null rate。
Run Evidence 描述一次资产运行事实、质量结果、分区、reason code 和下游决策的证据文件。
Data Factory Runbook Week06 的可交接操作手册,指导观察、物化、补数、检查、证据记录和下游放行。
Parsed Document 从 raw document 解析出的结构化文档表示,保留 layout、hierarchy、tables、page、bbox 和 provenance。
DoclingDocument Docling 的统一文档表示,可表达文本、表格、图片占位、标题层级、页码、bbox 与 provenance。
Knowledge Section Week7 解析后的文档结构单元,通常继承 section_pathpage_nobbox 和 source metadata。
Document Chunk Week8 索引前的候选文本单元,由结构感知切片生成,不等同于原始 section。
Evidence Anchor 让 chunk 回指原始文档位置的证据对象,是 citation、bad case replay 和质量复核的事实来源。
Section-aware Chunking 先尊重标题层级、表格、页码和 section 边界,再处理 token budget 的切片策略。
BBox Bounding Box,元素在页面中的坐标范围,常用于 PDF citation 和位置回指。
Source Fingerprint 对原始文档字节计算的稳定指纹,用于确认解析对象和 ingest 对象一致。
Parse Run 一次文档解析运行记录,保存 parser、策略版本、输入输出、状态和错误。
Chunk Quality Sample 对 chunk 和 evidence anchor 的抽样质检记录,用于 Week8 准入和后续回归对比。
Week8 Ready Gate Week7 输出给 Week8 的索引准入结论,说明哪些 chunks 可消费、哪些必须 blocked。

Week05|Transform、语义层与受控指标查询补充

Analytics / dbt 术语

术语 小白解释 工程解释 / OmniSupport 例子 常见误区
Analytics Engineering 把业务分析口径做成工程资产 Week05 用 analytics/、dbt models、tests、docs 和 reports 交付指标包 以为只是写 SQL 报表
dbt Core 本地运行 dbt project 的开源工具 analytics/ 里执行 dbt debugdbt builddbt docs generate 以为 dbt 是数据库或 BI
Source dbt 承认的真实上游表 omni_postgres.ticket_factcustomer_dimticket_comment_factknowledge_doc 在 source 层写复杂业务逻辑
Staging 把 source 变成稳定输入形状 stg_tickets 统一 status、priority、时间和 PII 状态 在 staging 里写最终 KPI
Intermediate 承接跨表组合和复杂派生 int_support_cases 汇总 ticket、customer、comment 逻辑 直接暴露给 Agent
Mart 面向下游消费的数据产品层 support_case_martsupport_kpi_mart 把所有字段都塞进 mart
Grain 一行代表什么 support_kpi_mart 是 metric + date + dimensions 先写 SQL,后补粒度解释
Data Test 对模型结果或 source 假设的断言 not null、accepted values、relationships 以为测试只是装饰
Unit Test 用小样本验证 SQL 逻辑边界 reopen、escalation、first response 规则 用它替代数据质量测试
Lineage 依赖关系和影响面 source → staging → marts → registry → tool 只把它当成好看的图
Artifact dbt 运行生成的机器可读证据 manifest.jsoncatalog.jsonrun_results.json 把 target 当主要交付物
manifest.json dbt 项目依赖清单 支撑 lineage、impact notes、资源映射 以为它是日志文件
catalog.json warehouse 列和类型信息 支撑 dbt docs 的真实字段展示 以为它能替代模型描述
run_results.json 节点运行状态和耗时 支撑 build evidence 和失败复盘 以为它是完整 lineage

Metric / Semantic / Tool 术语

术语 小白解释 工程解释 / OmniSupport 例子 常见误区
Metric 团队共同承认的指标接口 p1_ticket_count 有 source、grain、owner、tests、roles、audit 以为 metric 就是一条 SQL
Measure 可聚合的数值或表达式 metric_value + aggregation 把 measure 当完整业务指标
Dimension 分组或过滤的业务属性 product_linepriorityorg_idcategory 以为所有列都能当维度
Entity 可识别或连接业务对象的键 ticket_idorg_id 把任意字段当 entity
Semantic Model 业务实体、维度、度量和关系的模型 未来可从 registry 迁移到 semantic models 以为必须先买平台
Semantic Graph 语义模型之间的关系图 case、customer、metric、safe view 之间的查询路径 只把它当视觉图
Semantic Layer 让不同系统复用同一指标含义的接口层 Week05 先用本地 registry 落最小语义契约 以为等于 dbt Cloud
MetricFlow dbt 生态中的语义查询能力 本周作为扩展理解,不是 Student Core 硬依赖 以为必须生产化
Metric Registry 本地指标注册表 analytics/metric_registry_v1.yml 固定指标、维度、过滤器、角色和窗口 把它写成自由说明文档
Tool Contract Agent 工具的输入输出和拒绝边界 query_support_kpis_v1.json 定义 schema、denial code、audit 只写正例,不写拒绝
JSON Schema 描述 JSON 结构和约束的标准 required、enum、additionalProperties 约束工具输入 以为 schema 等于权限
Structured Outputs 让模型输出严格匹配结构 连接工具调用结果和可审计 JSON 以为它能替代 runtime guard
Metric Whitelist 允许查询的指标清单 registry 中登记的 6 个核心指标 让 Agent 自由发明指标
Dimension Whitelist 允许切片的维度清单 product_linepriorityorg_idcategory 开放 customer_email 等敏感维度
Time Window Guard 查询时间窗口上限 max_window_days: 31 让 Agent 查无限历史
Role Filter 基于角色的查询限制 support_opsinstructoradmin 只靠前端隐藏按钮
Parameterized Query 参数化 SQL 查询 runtime 生成确定性 SQL,不拼 raw input 以为它能替代所有安全控制
Audit Log 谁查了什么的证据 actor、metrics、filters、release、row_count 当作可选字段
Denial Code 程序可识别的拒绝原因 METRIC_DENIEDROLE_DENIEDDIMENSION_DENIED 只返回自然语言错误