您的当前位置:首页正文

如何建设一个标签库?

来源:个人技术集锦
如何建设⼀个标签库?

今天就来讲⼀讲,主要包括五⼤部分内容:标签库定位、标签体系、产品功能、平台架构。⼀、标签库定位

标签库以标签形式统⼀客户群数据的封装规范和操作风格,从⽽实现客户洞察知识的沉淀及共享,并通过产品化的形式实现⽬标客户群的快速⽣成和发布,提升营销渠道的客户群投放效率,标签库建设的⽬的就是为了营销,⽽不是为了分析。

企业的标签库跟⼴告产业的DMP是类似的,企业内部对⾃⼰的⽤户进⾏精准投放依赖的是标签库,⼴告产业DSP依赖的则是DMP。

⼆、标签体系

标签库的核⼼当然是标签体系,但每个企业打造的标签体系其实都不太⼀样,既有共性,也有个性。

共性主要体现在⽤户的⼀些基础属性,⽐如年龄、性别、职业、住址等等,个性是由于每个企业的产品特点、基础数据、⽬标受众都不太⼀样,⽐如运营商的标签会侧重通信消费、通信⾏为,⽽电商的标签则会侧重线上消费的各种特征,以下是某运营商8年前的⼀个标签分类⽰意。

但即使是同⼀个企业,也会由于业务的变化和数据能⼒的提升⽽⼤幅改变标签体系,⽐如运营商⾃从引⼊DPI、位置信令数据以后,其标签体系会向线上、线下的⽣活情况转变。

在设计标签体系的时候,要避免追求形式和逻辑上的完美,⼀定要从企业的营销实际出发,到⼀线进⾏充分的调研后确定要建设的内容,以下是以前的⼀个标签调研表格⽰例,⽅便理解。

标签按照⽣成⽅式有三种类型:基础属性、业务经验、分析模型和个性标签。

基础属性标签:基础属性标签是指从业务平台等数据源直接获取数据,⼀般通过信息整理或基础属性判定规则即可⽣成标签,⽐如品牌、集团属性、地域属性等。

业务经验标签:主要是利⽤业务⼈员经验积累的业务规则进⾏筛选、分析⽣成标签名单,数据⼝径的业务逻辑较清晰明确,可解释性强,⽐如中⾼端⽤户。

分析模型标签:主要是利⽤已有基础数据进⾏⼀定的筛选、分析、关联和数据挖掘,⽣成客户标签结果信息,⽐如易离⽹⽤户。

个性化标签:标签⼀般要具有共性的价值,但实践中很多标签属于探索性质,个性化很强,应允许在标签体系之外增加个性标签发布类⽬。基础标签可以基于数据仓库的基础模型、融合模型直接⽣成,分析模型标签则依赖于挖掘模型的结果,⼀般来讲,基础属性标签最多,业务经验标签其次,分析模型标签最少,这是因为⼀个企业内⼤多数营销所需的⽬标客户需要直接、清晰⽽可解释。三、标签库功能

标签体系是标签库的内涵,⽽标签库的功能决定了这些标签能否⽅便使⽤,酒⾹也怕巷⼦深。

标签库的核⼼功能包括标签创建、标签查询、客户群⽣成、客户群推送、标签元数据、调度管理这⼏项,其他的诸如标签编辑、标签停⽤、标签下线、标签评论、标签审批、标签推荐、安全管理等等,可以放到次优先级。很多看起来挺好的功能在运营初期⼀点价值都没有,你需要聚焦核⼼功能。1、标签创建

标签创建⼀般要⽀持三种模式:简单模式,⾼级模式,导⼊模式。

简单模式:⾯向业务⼈员,可以基于现成的模型宽表选择属性字段⽣成标签,如下图所⽰,但受限于开放的宽表的能⼒和业务⼈员的驱动⼒,在我们的实践中,这种简单模式并没有获得成功。

⾼级模式:⾯向独⽴编写SQL能⼒的使⽤⼈员,如下图所⽰,但要让标签库同时具备数据开发环境的能⼒,是⽐较理想化的。

实践中更多的还是通过数据开发平台⽣成后台表,同步到标签库后台,标签库再配置发布,虽然⽐较繁琐,但跟企业的数据开发体系是融合的。

我们后来直接让标签库前台对接数据开发平台的元数据,可以基于数据开发平台的表⼀键发布成标签,如下图所⽰,现在数据开发平台也可以⼀键发布到标签库,这样就很⽅便了,标签库⼀定要约束其功能的范围。

2、标签查询

标签查询⼀般要⽀持⼆种模式:⽬录视图,搜索视图。

3、客户群⽣成

客户群⽣成⼀般可以包括客户群计算、客户群分析、客户群拓展三个模块。

客户群计算:基于标签的组装⽣成客户群是标签库最核⼼的功能,主要包括选择标签及属性、配置标签逻辑关系、配置客户群属性三部分,如下图所⽰:

客户群分析:客户群在投放前往往还需要进⾏多维度分析(⽐如位置、收⼊、区域、性别、年龄、总量等等),⽅便对客户群做出进⼀步调整,如下图所⽰:

客户群拓展:选择某个客户群作为种⼦⽤户,找到这部分⽤户的维度特征(当然还可以有其他办法),然后基于这些维度特征找到其他相似⽤户,从⽽扩⼤投放⽤户群,这个功能其实不太实⽤,实践中拓展⽤户群往往是通过放宽标签设置条件去做。4、客户群推送

没有出⼝的标签库是没有价值的,标签库需要对外开放,能够将客户群按照⼀定的接⼝规范, 通过标准化的交互接⼝,提供给外部系统进⾏使⽤,包括同步、异步及订阅等多种⽅式,⼀般推送的对象就是营销管理平台或者说是DSP。

推送客户群有⼀个关键就是有来有回,你出去的数据,必须能跟踪到渠道投放情况,做不到这⼀点,就⽆法形成闭环,后⾯的运营就很难开展。

很多企业标签库和投放端是两个团队,数据有去⽆回,标签的优化就很难做了,长远来讲损害企业利益。5、标签元数据

标签元数据是整个元数据管理体系的⼀部分,主要包括对标签数据来源、数据处理过程、数据建模过程、标签⼝径、标签效果等的说明,透明化的第⼀⽬的就是让这个标签值得信任,业务⼈员敢⽤,其次是⽅便核查问题,但标签的元数据很难做好,⽐如效果的⾃动获得对于投放的闭环要求⾮常⾼。

四、标签库架构1、标签库系统数据流向

下图通过⼀个案例显⽰了标签库的数据流向,⽅便你理解其中的逻辑关系。

(1)(2)(3)(4):外围系统提供数据通过ETL⼯具同步到主仓库和专题库

(5)(6)(7):主仓库、专题库、创新应⽤平台⽣成的基础模型、融合模型、挖掘模型结果同步到标签库(8):标签后台库负责标签的⽣成、标签宽表存储、客户群计算及清单存储,向⾮结构化库输出个⼈标签清单(9):基于⽂件系统⾮结构化存储个⼈⽤户的标签信息(MogoDBS), 满⾜对外快速查询需求(10):标签前台库存储标签、客户群、资源权限等系统配置信息2、标签库系统部署结构

标签库有⼤量的关联批量计算任务,对于在线分析的时限要求⾼,因此MPP架构往往是后端数据库的选择之⼀,在某些所见即所得的场景(⽐如在线统计),可以混合使⽤ES等查询引擎来提升体验。

因篇幅问题不能全部显示,请点此查看更多更全内容