信息通信
INFORMATION & COMMUNICATIONS
2017(Sum. No 180)
企业大数据平台建设过程中的问题和建议
陈实如
(方正宽带网络服务有限公司,北京100011)
摘要:总结了企业大数据平台建设过程中的几个问题。客观认识数据价值,提出大数据研究要与业务应用需求密切相结 合,研究成果必须落地的观点。大数据平台的建设需要统一规划小版本迭代完善,是一个长期研究过程。最后总结了经 历宽带用户画像大数据平台建设的心得和体会,对行业相关企业开展大数据研究工作具有参考价值。关键词:大数据;人物画像;标签体系中图分类号:TM76 文献标识码:A 文章编号= 1673-1131(2017)12-0141-02
关联关系的数据才能反映控制体本身特性。这种关联关系可
能是显性的,可能是隐形的。显性关联关系是很容易发现的, 隐形的关联关系是很难发现的,但隐形的关联关系从业务逻 辑上是可以解释的。
隐形关联关系很难用单一的线性和非线性模型来表征, 那么利用数据结果特征来分析和建模控制体是可行的。对于 两个毫无关联关系的控制体来讲,即使利用大数据工具对有 限的数据样本构建了两者的关联模型,那也只能是数学上的 关联关系,数学上的模型,不能有效反映业务控制体内在关联 特征,不能预测业务未来发生。所以企业数据资源是否有价 值,如何构建大数据平台,如何分析挖掘数据价值,是否真的 能挖掘出有价值的东西,是企业在构建大数据平台之前要重 点考虑的问题。要客观认知数据价值,不能为大数据而大数 据,盲目跟风,而应该从业务角度来看,从业务需求出发加强 业务与数据的研究,首先解决显性关联关系的控制体数据模 型,然后去解决隐形关联关系的控制体数据模型。大数据研 究结果是要指导业务运营,以具体业务应用为考核目标,不探备运行状态监测为秒级业务,每个业务点带宽需求约为 10Kbps 〇2结语
主动配电网中的配电自动化、高级量测、负荷侧响应、配 网设备在线监测都需要通信系统的支持。因此,通信系统的
〇引言
数据的确有价值,把更多的数据采集到了数据中心,避免 数据孤岛,构建大数据平台,实现数据统一管理,统一分析挖 掘,数据就具备了更大的价值。利用数学工具,分析和挖掘数 据的关联性,构建数据模型,开采数据金矿,探索基于数据的 新业务模式,新商业价值。在这种背景下,大数据很火。只要 有数据的企业,都在讨论和建设了自己的大数据平台,展现自 己企业的数据挖掘结果。同时,行业里也涌现出了大数据服 务公司,从专业角度为企业提供咨询、建模、开发等工作,大大 促进了大数据工作的进展。挖掘数据内在联系一定能找到金 矿,获得额外惊喜收获?答案并非如此。大数据讲究的数据 的质量,数据的维度,数据的内在关联性,而不是简单地有 10TB量级的数据。本文总结了宽带用户画像平台建设过程 中出现的问题,并提出了参考建议。1认知问题
数据不一定是万能的。数据由业务过程产生,只有具备(3)分布式电源、储能装置通信需求。分布式电源需要将 实时运行数据上传到主动配电网监控中心,并且接受监控中 心下发的AGC、AVC控制指令,通信时延应小于1秒,通信带 宽大致需要20Kbps级。储能装置需将各储能模块实时运行 状况监测数据上传至监控中心,同时接收监控中心下发的控 制命令,通信时延应小于1秒,通信带宽约为64Kbps~2Mbps。 1.3高级量测体系通信需求
设计被认为是主动配电网建设中至关重要的环节。而在设计
主动配电网通信系统时,首要任务就是明确主动配电网中各
(1) 智能电表通信需求。智能电表是主动配电网中实现“网”
业务类型及带宽需求。本文结合主动配电网特征,对主动配
与“荷”互动的桥梁,是实现柔性负载必不可少的。智能电表
电网中各项通信业务需求进行了详细分析,可供建设主动配
实时采集用户用电信息上传给主动配电网监控中心,监控中
电网通信系统时参考。
心向用户下发实时、分时电价,并对用户可调负载下发控制指
参考文献:令。智能电表电表5分钟信息量约为600字节,通信带宽大
致需要0.016Kbps,智能电表信息一般采用低压载波通道汇集 [1] 马钊,梁惠施,苏剑.主动配电系统规划和运行中的重要问
至集中器,一台集中器按管理500个智能电表计算,则集中器 题[J].电网技术,2015,39(6):1499-1503.与监控中心之间通信通道带宽约需要10Kbps。[2] 程林,刘琛,康重庆,吴强.主动配电网关键技术分析与展望
(2) 大客户负荷管理通信需求。针对大客户负荷的具体需 [J]•电力建设,2015,36(1):27-32.求,可以采用双向互动的模式,对负荷进行精细化管理。监控 中心将电能质量、负荷预测、负荷控制等信息下发,大客户负 荷根据供电质量、电价和停电信息,优化用电时间,提高经济 效益。大客户负荷管理通信带宽约需要5Kbps,时延要求相对 较低,约为3秒。1.4配网设备在线状态监测系统通信需求
进行设备全生命周期管理是提高电网资产利用率的一 个重要举措。为了延长设备使用寿命、提高设备检修效率, 需对主动配电网中设备、线路的运行状态进行在线监测。设
[3] 柳春芳.主动配电网的一体化设计方法[J].电力系统保护
与控制,2015, 43(11) :49-55.
[4] 李得利.智能配电网通信系统探讨与性能分析[D].重庆:
重庆大学,2012.
[5] 苏波.佛山地区智能配电网通信方案设计及网络建设[D].
北京:华北电力大学,2013.
作者简介:付诚(1986-),男,硕士,工程师,从事电力通信、调度 自动化设计工作。
141
信息通信
索具体业务应用的大数据研究毫无意义。2数据与业务融合问题
数据挖掘分析一定要与业务过程相结合’禁止脱离业务 过程理解的数据分析挖掘活动。数据人员和业务人员必须相 互沟通交流,加深理解对方的知识,实现融合,否则数据挖掘 结果仅仅是过去业务活动的结果展示,无法指导业务和预测 业务。
单纯的数据建模数据挖掘没有任何商业价值,在构建大 数据平台过程中,数据采集、预处理、存储、特征提取、模型建 立、应用的开发都离不开业务人员的支撑。大数据建模过程 实际上就是业务流程的梳理和重塑。所以企业大数据平台建 设需要业务人员和数据人员密切配合。道理很简单,但实际 执行过程中,往往是企业花钱委托专业大数据公司帮助企业 研究数据资源,挖掘数据价值,提供数据应用建议。大数据公 司经过一番调研、论证、建模、优化验证后,出具一堆成果报告。 报告内容大部分属于常识性结论或者理论性知识要点,不能 做到与业务的有效互动,也无法改善业务流程业务模式。造 成这种结果的原因主要是企业认为自己花了钱,请了专业公 司,自己就可以当甩手掌柜或者业务顾问了,没有做到安排业 务人员融合到数据挖掘过程中去,实现业务人员和数据人员 的协同工作。
业务人员根据企业业务流程,业务特征梳理出能够反映 企业业务属性的特征过程,形成特征参量,用数学语言描述就 是构建业务特征向量••那些特征能准确反映业务过程’那些 特征能影响业务结果,那些因素影响业务特征都需要业务人 员来阐述。数据人员对这些特征向量进行处理,利用大数据 关联性分析、聚类分析、群点分析、分类与预测分析等数学工 具进行挖掘,构建模型,最终实现大数据在个人征信、精准营 销,企业管理、情报分析等方面的应用。不同的应用领域,不 同时期,业务人员关注点也是不同。数据人员在对分散性数 据预处理,存储、模型建立、测评过程中,也需要业务人员密切 配合,分析评估,数据预处理方式是否可行,送入模型的特征 向量是否完整,建立模型是否表现了业务,模型的分析预测结 果是否具备业务可解释性。
表1给出了我们在研究宽带用户画像是设计的业务特征。 很明显,大部分业务特征属性是需要业务人员完善和提出的, 单靠数据专家很难细化到这个程度。随着研究工作的深入, 描述宽带用户画像维度的増加,表1的业务特征还需要进一 步细化。
表1构建宽带用户画像的业务特征
类剃业务将征
基本m息ID、年龄、状态、入N
时长、房厘类别
小区倌息小区规檳、小区档次、小K接入率
合同熵赵本次入网时㈣段、本次套餐名称、本次套餐金颉、本次套餐ARPU、本 次合网到期时长、历史上累计金額、
上网行为上网时段、W页行为、最近三月累计上网时长占比
消费倌息
W计续费次数、续费中预交费次数^比、殿近一次续费时今时长i 预计F次续费时长、本次续费合同时M越长/不变/缩矩、本次续费合同 金额增加/不变/减少、本次续费ARPUm加/不变/減少、本次续费带宽 埔加/不变/减少、历史上续费带宽塌加/不变/滅少占比、历史上续费 ARPU增加/不交/减少占比
客服份赵
缳近1月故障报你次数、舉近1月客服满意度*最近1月故陣蹊计耽误 时长、最近3月故橡报修次数、最近3月客服涞意度、R近3月故陬m i卜耽误时长、主耍故陳原因、合网执行期后30%时间内故W报修次数、 合同执行期后30%时间内齐明满寒度、合同执行期后30%时间内主興故 陣累因、合同执行期后3OT6时间故»累计耽误时长
最近1只投诉次数、最近1月投诉处现满麻度、熳近3 投诉次数、最 近3月投诉处?B满意度、主要投诉内容、合同执行期后30%时间内投诉 次数、合N执行期后30%时间妁投诉处理满意皮、合间执行期后30%时 间内主要投诉内容
142
陈实如:企业大数据平台建设过程中的问题和建议
3
平台建设需要迭代优化
大数据平台的建设和完善是一个迭代优化过程,不简单
是个项目,成果交接后项目就结束了。大数据平台工作需要 在统一m据框架下,根据业务需求不断地丰富数据,分析数据、 数据建模和应用探索。
业务需求是第一要素。构建大数据平台首先要从业务需 求出发,利用数据资源想解决那些问题。目标必须明确。一 切工作围绕业务目标展开。数据是真实的,但数据只有与应 用场景结合起来,才有可能发挥价值。刚开始可以从数据显 性关联分析入手,然后过度到隐形关联分析。因为业务专家 很容易从经验角度来评估大数据模型结果的可信性。
统一规划,小版本快速迭代。大数据平台建设是一个长 期过程,需要在统一框架下迭代完成。大数据平台注定是髙负 载,高并发处理平台,因此需要在设计阶段考虑清楚如何演进, 选择何种架构,何种数据结构,何种存储方式,未来如何扩展。 另外在统一框架下,大数据处理也是需要迭代的。大数据平台 渉及环节较多,包含采集、预处理、存储、分析、建模、展示、应用 等环节。每个环节都不是一成不变的,需要根据业务应用要 求,根据项目成员对业务和数据的理解深入,根据可视化展示 内容变化等要求调整完善优化设计过程。典型案例,就是老板 需要关注的报表不断增多,需要分析影响业务经营潜在因素增 多,数据工程师需要就补充需要修改数据表单,増添数据字段, 完善数据优化数据模型,最终展示新的数据应用内容。
搭建大数据平台过程更多是团队培养磨合过程。大数据 建设需要数据专家和业务专家的融合。业务专家要逐渐熟悉 数据建模过程,数据专家要逐渐理解业务流程。项目刚开时, 数据专家和业务专家出发点不同,理解不同,可能出现各自为 政的局面。需要加强沟通,让业务专家具备大数据思维,让数 据专家具备业务思维。从长远角度看,企业建设大数据平台 最好是内部组建团队,培养企业自己的大数据团队,即使项目 由专业第三方团队主导,企业内部团队也是必不可少的,因为 大数据研究是个迭代过程。没有自己的团队,研究成果不能 有效继承,研究范围不能逐步扩大,数据价值也就不能进一步 更有效挖掘出来。4
结语
大数据的价值要么描述为银矿,要么描述为金矿。企业
负责人,企业信息化主管为了尽快实现本企业数据价值,往往 是委托一家专业的大数据公司来研究和探索数据资源。可往 往是最终分析结果出来与期望相差甚远。要么是与业务结合 度甚微,要么是分析挖掘深度不够。还有些项目交付一结束, 研究活动也就是结束了,没有后续跟进深入
本文明确提出大数据的研究一定要与企业业务相结合的 观点,业务应用目标不同,数据研究过程也不同。大数据研究 过程不是一个拷贝过程,企业业务活动不同,业务特征提取也 会不同,研究结果也就不一样。大数据平台建设来源于业务, 服务于业务。大数据研究不是一个短期项目,委托给专业团 队或专业公司千一段时间就完成了,而是一个小版本逐步迭 代过程,业务人员和数据人员相互融合的过程。
作者简介:陈实如(1975-),男,四川江油人,博士研究生,髙级 工程师(教授级),研究方向:企业信息化、物联网技术、大数据 应用等领域。
因篇幅问题不能全部显示,请点此查看更多更全内容