文章摘要

qwen-turbo

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结

概述

在公司数据建设过程中，经常会使用和提到指标和标签，但是很多小伙伴对于两者的区别确不能讲清楚。实际上标签与指标一样，是理解数据的两种方式，在赋能业务上，两者同样重要。接下来将结合自身的理解，从定义、应用场景、分类等多个方面进行总结。

定义

指标在定义上，主要是对数据的度量，而标签则主要是人为的对数据进行概括性描述。

指标分类

现代管理学之父彼得·德鲁克提出用管理促进企业增长，他讲过一句非常经典的话：“如果你不能衡量，那么你就不能有效增长。”

那么如何去衡量呢？

基于统一的标准去衡量业务，这个统一的标准就是指标，将业务通过可量化、可拆解的形式进行描述，通常是数值型数据。

例如：以淘宝网为例，GMV销售额这个指标就是用来衡量交易金额

基于原始数据进行语义化加工，人为的对业务含义进行概括性描述，标签在数据结构中包含：标签名称及其值。标签往往具备高度概括、相互独立及可枚举的特点。通常在画像应用场景中出现，很形象的描述就是给用户打标签。

借用一个例子如：对小白进行打标，说他是个“大胖子”，就同时概括了身高172cm和体重150斤，而“长得跟李逵似的”，更是把五官、身材、气质等特征都概括进来了。指标：身高172cm，体重150斤标签：大胖子

对于指标的应用场景，常见的就是公司运营，如报表，主要用来做监测分析，是以业务为导向的。

对于标签的应用场景，更多的是画像应用，通过对实体（用户、商品、帖子、设备等）的标注、刻画、特征提取和分类来划分群体，以应用场景为导向的，跟随业务需求变动。

通常在实际使用中，标签数据的一部分来源就是基于指标进行加工产生的，也可以理解成标签数据是指标的业务化、语义化。

例如：

指标：用户最近30天活跃次数，来打标流失用户这个标签指标：用户最近7天消费次数及金额，来打标高价值用户

所以，标签体系的建设是非常重要的，不但能丰富数据分析的素材，更能直接推动分析成果落地。

指标的分类主要有加工逻辑分类、业务分类（主题域）、层级等几种，实际使用中常常也联合起来进行分类。

原子指标：用于统计业务活动中某一业务状况的数值，主要是用于明确业务的统计口径和计算逻辑。例如，用户充值，原子指标为充值金额。

派生指标：由原子指标、修饰词、时间周期三大要素构成，用于统计目标指标在具体时间、维度、业务条件下的数值表现，反映某一业务活动的业务状况。例如，统计最近一天_用户的充值金额

衍生指标：基于原子指标组合构建的，例如，arpu人均充值金额 = 充值金额 / 充值用户数

一般是对某一类业务的抽象组合，在数仓可以理解成主题域或业务域。

例如：充值、消费等归类于交易域，例如发帖、评论等归于社交域。

标签的分类主要有加工逻辑分类、重要程度等几种，实际使用中常常也联合起来进行分类。

基础（统计类）标签：

是最为基础和常见的标签，例如：性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数、历史累计充值金额、ltv1等

规则类标签：

该类标签基于用户行为及确定的规则产生。例如，对应用内“高价值用户”这一口径的定义为“历史累计消费金额≥1万元”。

算法标签：

标签通过算法的机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的社交习惯判断其对某帖子及主播的偏好程度。该类标签需要通过算法挖掘产生。

在项目工程实践中，一般统计类和规则类的标签即可以满足应用需求，在开发中占有较大比例。机器学习挖掘类标签多用于预测场景，如判断用户性别、用户购买商品偏好、用户流失意向等。一般地，算法的机器学习标签开发周期较长，开发成本较高，因此其开发所占比例较小。

上面就是对指标和标签的一些理解，简言之指标更客观，注重事实，而标签则是对数据的描述，标签也是同样重要的。因为除了精准以外，标签数据业务化，更接近于日常，更易理解。