一文掌握数据相关常用名词
这里整理了数据人员,经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时, 人员协作及研发都有很高的作用。
数据平台相关
任务(Task)
任务是对数据执行的操作的定义,示例如下:
- 通过数据同步节点任务,将数据从RDS同步至数仓。
- 通过SQL节点任务,运行SQL来进行数据的转换。
实例
实例是某个任务在某时某刻执行的一个快照。调度系统中的任务,经过调度系统、手动触发运行后,会生成一个实例。实例中会有任务的运行时间、运行状态和运行日志等信息。
例如: 设置每天2:00运行Task1实例,调度系统会在每天23:30根据周期节点定义好的时间,自动生成一个快照,即Task1第二天2:00运行的实例。到第二天2:00时,如果判断上游实例已经完成,Task1实例便会如期启动运行。
依赖
任务A运行时需要使用任务B的计算结果,则任务任务A依赖于任务B,任务B则为任务A的依赖节点。
自依赖
任务计算当前任务时必须依赖此任务的上一周期实例。
输出名称
输出名称:每个任务(Task)输出的名称。它是您在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。 当您在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是节点名称或节点ID)来完成设置。设置完成后该任务的输出名也同时作为其下游节点的输入名称。
重跑
任务可多次运行,每次运行可称为重跑,一般在任务异常、数据有误、逻辑有变更时需要重跑任务。
补数据
当任务异常或逻辑有变更时,可对任务选择历史一段时间来进行补数据,以便修正历史数据。
数据地图相关
元数据
元数据是数据的描述数据,可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。数据平台中元数据主要指库、表相关的信息,元数据管理对应的主要应用是数据地图。
数据血缘
属于元数据的一部分,用来展示数据表之间的链路关系,包含了数据的来源、加工方式、映射关系以及数据去向。
数据标准相关
数据标准
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。
例如: 现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id ,登录表中也存储了会员ID,字段名为userid ,此时针对会员ID这个数据创建统一的数据标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。创建好数据标准后,后续在建模过程中涉及到会员ID这个字段的设置时,即可直接关联此标准,以此来保障所有会员ID字段的标准统一。
命名词典(词根)
命名词典,又叫做词根,主要管理业务名词、物理表、字段的词根和词素及其标准化的中英映射。
字段标准
字段标准可理解为全局字段管理。可将多个表中含义相同但字段名不同的内容进行关联,并对该字段制定相关的取值范围、度量单位、标准代码等内容。后期字段标准发生变化时,可快速定位和变更关联的表,极大程度提升构建效率、应用效率、准确性和后期治理效果。
标准代码
表示某一字段标准的取值枚举集合,在规定的集合里取值,一般由代码值,代码描述组成一个字典项。 例如: 性别数据标准的标准代码内容应该为男或女。
指标及标签相关
修饰词&衍生词
修饰词是对指标进行限定抽象的业务限定,修饰词归属于一种修饰词类型,比如日志域的访问终端类型,包含修饰词PC端、无线端等。 衍生词用于修饰原子指标,是对于原子指标中带有计算口径的词进行了抽象定义。
原子指标
原子指标是有业务统计含义的数值型数值,通过度量加工得到,一般作口径定义存在,不具备实际物理值。
派生指标
派生指标 = 原子指标 + 修饰词 + 时间周期
衍生原子指标
衍生原子指标 = 主原子指标 + 衍生词
复合指标
复合指标由一个或多个派生指标通过计算而成。
口径
口径就是取数逻辑(如何取数的),比如要取的数是10岁以下儿童中男孩的平均身高,这就是统计的口径,一般分为技术口径和业务口径两种。
业务口径
从业务的角度制定统一的数据统计标准,往往用来说明某一数值在特定业务场景下的含义,例如新增用户数、活跃用户数。
技术口径
用来描述某一数值(字段)通过其它字段加工得到的计算逻辑。
标签
标签是人为设定的、根据业务场景需求,对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果,如网红、白富美、萝莉。对于有歧义的标签,我们内部可进行标签区分,比如:苹果,我们可以定义苹果指的是水果,苹果手机才指的是手机。
数仓架构相关
主题域
数仓建设的一个上层分类概念,把比较接近的业务过程或者属性接近内容划分为一个大的整体,称之为主题域。
维度
维度是度量的环境,用来反映业务的一类属性,常见的如统计日期、用户、省份、性别等。
度量
来源于业务系统中不经过加工的用于反映和描述事实的数值型数据,不带业务口径。
粒度
粒度是描述事实表中一条记录所表达的细节程度。通常粒度可 以通过两种方式来表述: 一种是维度属性组合所表示的细节程度 一种是所表示的具体业务含义,例如用户的充值行为,用户的私信行为等
维度表
维度表包含了事实表中指定属性的相关详细信息。
桥接表
用于存放桥接维度的关系表。
明细层
从ods层经过ETL得到的明细数据,表示具体的事实,主要由维度和度量等构成。
汇总层
由明细数据经过汇总得到的数据,主要由统计维度和指标构成。
应用层
由明细层或汇总层加工得到用来面向报表、服务、应用等使用的数据。
贴源层
由业务系统同步到数据仓库的原始数据,一般不经过加工。
维度分析
下钻
在数据分析中常见的概念,下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
上卷
知道了下钻,上卷就容易理解了,它俩是相逆的操作,所以上卷可以理解为删掉维的某些层,由细粒度到粗粒度观察数据的操作或沿着维的层次向上聚合汇总数据。
基线运维管理相关
基线
即时间线,在基线运维场景中,通过设定几条时间线(即基线),并将线上任务关联到这些时间线上,当这些任务的实例或上游实例运行失败,或者这些实例的预计产出时间超过对应的时间线时,系统会触发报警通知给值班人员。
预警
指预警时间,表示当前基线配置的预警时间线。当基线的任务实例预计完成时间超过“预警时间”,则会发送报警类型为“基线报警”的报警。
破线
指破线时间,表示当前基线配置的破线时间线。当基线的任务实例预计完成时间超过“破线时间”,则会发送报警类型为“基线报警”的报警。