XX银行大数据建设规划
北江 2015/6/25
一、项目背景
随着信息化程度的加深,以及移动互联网、物联网的崛起,人们产生的数据急剧膨胀,传统的数据处理技术难以支撑数据大量的增长和处理能力。经过近几年的发展,大数据技术逐步成熟,可以帮助企业整合更多的数据,从海量数据中挖掘出隐藏价值。大数据已经从“概念”走向“价值”,逐步进入实施验证阶段。人们越来越期望能实现海量数据的处理,从数据中发现价值。数据越来越成为一种重要的资产。在2014年Gartner技术炒作曲线的报告中也体现了大数据技术将走向实际应用。
我行已深刻认识到数据战略对企业运营以及企业未来发展方向的重要性。互联网金融的本质是金融,核心是数据,载体是平台,关键是客户体验,发展趋势是互联网与金融的深度融合,要提升大数据贡献度。因此,要深化互联网思维理念,稳步推进互联网金融产品和服务模式创新,积极利用移动互联网、大数据等新技术新手段,沉着应对冲击和挑战,实现传统金融与互联网金融的融合发展。做好海量异构数据的专业化整合集成、关联共享、安全防护和维护管理,深度挖掘数据内含的巨大价值,探索银行业务创新,实现数据资源的综合应用、深度应用,已成为提升企业核心竞争力,实现企业信息化可持续发展的关键途径。按照行领导部署,信息科技部组织力量对大数据技术进行研究,完成对市场上主流的大数据平台及应用技术预研,征求业务部门建议,提出项目建设要求。
二、建设目标
以大数据项目建设作为契机,凝聚我行优势力量,全面梳理数据资源,完善数据体系架构,自主掌握大数据关键技术,加速大数据资源的开发利用,将数据决策化贯穿到经营管理全流程,建设智慧银行,提升核心竞争力。
(一)建设大数据基础设施,完善全行数据体系架构
构建大数据平台,实现更广泛的半结构化、非结构化数据集中采集、存储、加工、分析和应用,极大地丰富我行的信息资源,同现有的企业级数据仓库和历史数据存储系统一起,形成基础数据体系,提供支撑经营管理的各类数据应用。
(二)开发大数据资源,支撑全行经营管理创新
建设离线数据分析、实时数据/流数据分析集群和各类数据分析集市,提供高性能可扩展的分布式计算引擎,通过数据挖掘、计量分析和机器学习等手段,对丰富的大数据资源进行开发使用,并将数据决策化过程结合到风控、营销、营运等经营管理活动。
(三)培养大数据人才队伍,建立大数据分析能力
结合大数据项目的落地实施,建立起一支大数据技术和分析人员队伍,具备自主运营和开发大数据的能力,以更好推动业务创新,提升我行核心竞争力。
三、发展趋势
近年来,银行业大力发展面向客户的新一代核心业务系统,信息系统建设日趋完备,电子银行等在线金融服务大幅增长,在提升客户体验和风险管控能力、满足监管各项要求的同时,形成并储存了庞大的可用数据资源。银行业的数据资源不仅包括存贷汇等结构化数据,也包括客户浏览痕迹、在线交易记录等非结构化数据,还包含客户电话语音、网点视频等非结构化数据。2012年,银行业的电话记录数
据、业务数据、数据仓库数据、结构化数据和非结构化数据的数据规模分别达到938T、1688T、3125T、5313T 和 3938T。Celent公司预计未来5年将增长7倍。
除数据本身的快速增长外,银行业面临的更大的挑战是大数据带来的业务挑战,这包括:小微贷市场上,银行与互联网小额贷款公司难以竞争;支付市场中,网银支付所占比重越来越低,这使得银行越来越难以知道客户的消费行为;各种互联网融资模式的出现,在未来可能会超过以银行为中心的间接融资。所有这些挑战,本质上是银行对于客户的了解程度相对越来越弱。麦肯锡指出,在大数据时代,不能充分形成大数据使用能力的竞争者将被淘汰。
(一)同业案例情况
国内领先的商业银行已经启动大数据平台的建设,并应用于精准营销、风险管理和业务创新等领域,以获得竞争优势。工商银行通过构建大数据平台,收集网银用户的行为轨迹并进行分析,精准营销,扩大销售,优化网银服务模块的质量,提升客户体验。招商银行通过大数据平台构建全量数据分析和挖掘平台,推出在线明细,实时征信,精准营销等创新业务,提升小微贷获客率。上海银行构建大数据平台,用于对客户的资金的流入流出分析。中信银行、光大银行、平安银行、民生银行都在建设自身的大数据平台。
(二)业务应用场景
大数据技术在银行业的应用范围包括:客户洞察、营销支撑、风险管控和营运优化等领域。
客户洞察
分析用户的各种数据,包括电话语音、网络的监控录像、商城交易信息、金融业务信息以及外部的社交信息、第三方履约行为等多方
面信息,从而实现对客户进行分类和服务。对现有CRM系统中的客户分层的数据要素进行延伸。
营销支撑
实时营销:是根据客户的实时状态来进行营销,如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销。
社交网络营销:主要是微博营销,这主要是捕捉用户的言论和行为,并有针对地开展相关营销活动。
事件式营销:将改变生活的事件视为营销机会,如换工作、改变婚姻状况、置业等。
风险管控
信用评级:运用社交网络、行为特征、交易网、基本社会特征、人行征信等多个维度对客户综合评级,运用大量的指标构建多重模型,以识别客户的信用风险。
反欺诈:通过监控客户、账户和渠道等,提高银行在交易、转账和在线付款等领域防御欺诈的能力。在监控客户行为时,可以识别出潜在的违规客户,提示工作人员对其予以重点关注,从而节省反欺诈监控资源。
营运优化
改善用户体验:运用大数据能够处理海量数据的能力,将传统数据统计分析等业务切换到数据处理能力更强的平台,来解决查询历史数据的困难,提升用户体验。
客服中心优化:通过对客服中心的数据分析,允许银行提前预测用户需求用以快速地解决问题,能够快速满足用户的需求。
降低运营成本:大数据平台采用普通的PC服务器和廉价存储,相对原有的小型机的硬件架构,可以有效的降低IT运营成本。
四、平台建设原则
平台是大数据的基础实施,其建设、设计和系统实现过程中,应遵循如下指导原则:
经济性:基于现有场景分析,对三年内的数据量进行合理评估,确定大数据平台规模,后续根据实际情况再逐步优化扩容。
可扩展性:架构设计与功能划分模块化,考虑各接口的开放性、可扩展性,便于系统的快速扩展与维护,便于第三方系统的快速接入。
可靠性:系统采用的系统结构、技术措施、开发手段都应建立在已经相当成熟的应用基础上,在技术服务和维护响应上同用户积极配合,确保系统的可靠;对数据指标要保证完整性,准确性。
安全性:针对系统级、应用级、网络级,均提供合理的安全手段和措施,为系统提供全方位的安全实施方案,确保企业内部信息的安全。大数据技术必须自主可控。
先进性:涵盖结构化,半结构化和非结构化数据存储和分析的特点。借鉴互联网大数据存储及分析的实践,使平台具有良好的先进性和弹性。支撑当前及未来数据应用需求,引入对应大数据相关技术。
平台性:归纳整理大数据需求,形成统一的大数据存储服务和大数据分析服务。利用多租户, 实现计算负荷和数据访问负荷隔离。多集群统一管理。
分层解耦:大数据平台提供开放的、标准的接口,实现与各应用产品的无缝对接。
五、分析应用规划
大数据项目实施在保持核心账务系统稳定同时,实现外围IT架构逐步向开放架构演进,同时逐步吸纳互联网技术创新,应对大数据技术的快速发展和进化。
以全行三年战略发展规划和十三五规划为导向,借鉴同业和互联网企业的先进经验,分步实施分析应用,基础平台、外围系统改造以及业务流程优化相应地进行配套调整。
规划的大数据平台及应用的整体架构如下:
大数据平台重点功能模块定位如下: 基础数据集群
使用分布式文件系统和数据库等组件实现全量结构化数据和非结构化数据存储,并提供标准接口或Rest标准接口,上层业务以只读方式访问。数据使用平台集成的工具批量导入导出。
在线处理集群
基础数据集群中的存放的往往是低价值密度的数据,经过加工处理后,提取出高价值密度的数据,放入在线查询集群,支撑实时业务、自助查询等高并发,低时延的数据查询。
离线处理集群
离线数据处理集群主要用于海量数据的分析处理,提供数据挖掘、
数据探索功能框架,从海量数据中提取高密度价值的数据。适用于对海量用户行为数据挖掘、建模,以支撑以客户为中心的精准营销、决策分析等应用场景。
流式处理集群
使用流式处理组件,将实时数据接入。通过注入实时业务处理规则,对事件做分析处理,实时决策。流事件处理过程中,需要访问基础集群或在线处理集群,获取必要的支撑信息,如风险信息表、黑白名单、历史交易信息等,要求支持每秒万级别并发数据访问。适用于信用卡授权风险控制、移动在线支付、在线统计分析等对实时性要求较高的场景。
大数据平台的数据来源及应用场景规划如下:
计划分三步进行实施,如下: (一)2015年
完成大数据基础平台的搭建,构建简单的查询分析应用,科技人员熟悉平台关键技术和开发技能。
基础平台
完成大数据平台的搭建,实现平台的基础功能和基础数据集群。 完成HDS历史数据、科技运维日志、网银日志、智能营销网页信息数据的存储。
构建多种数据挖掘算法库。
完成基础数据平台对外数据服务的标准化接口。 分析应用
完成资金流向分析主题和历史数据内部查询交易。
提出直销银行、手机银行、微信银行的数据采集点数据要求。 提出用于支撑营销的个人信息的数据采集要求。 外围系统改造
完成直销银行、手机银行、微信银行的数据采集点改造,将行为日志数据记录下来。
(二)2016-2017年
完善大数据基础平台,增加离线数据处理集群,采集行内各系统产生的客户行为数据,第三方合作机构(含同业)的外部数据,丰富客户营销、风险管理方面的数据信息,探索大数据同云计算平台的结合,构建相应的分析应用系统,将数据决策融入营销和风控过程。科技人员掌握平台关键技术,能够自主营运开发。
基础平台
增加离线数据处理集群,完善多种数据挖掘算法库,用于对海量
数据进行加工处理,分析应用。
采集客户行为数据,包括直销银行、手机银行、微信银行等。 迁移影像平台的历史数据。
采集同业产品信息,我行网上舆论信息,特定客户和行内的互联网舆情信息,第三方合作机构、银银合作平台的外部数据。
分析应用
构建数据分析应用云计算平台,实现半结构化、非结构化数据的解析功能,完善支撑数据分析应用集市,提供更多的数据服务,实现灵活深入的客户细分、专业化的营销与销售、优化管理流程,提升运作效率、降低管理成本。主要应用方向包括:
客户画像分析(个性化理财、交叉销售、客户挽留)。 舆情分析(对产品的比较、评价等反馈,进行营运优化)。 网站分析(手机终端、微信、直销银行等),分析客户行为。 科技运维优化(结合ITSM、系统运维日志分析事件、问题的关联性、各类统计等)。
信用风险(在现有的信用评级体系中,增加外部数据来源,优化评级结果),完善自动化授信审批,尤其是针对小微企业或特定产品,推出信贷差异化定价体系,做到对不同产品、不同行业、不同区域实施差别化定价。
分析个人的活跃地址、商户的地址,结合个人移动终端地理位置信息推送商户营销信息;针对交易流水,结合MCC类别码,识别出客户爱好。
业务流程
将客户画像、行为分析结果反馈到CRM系统用于营销支持。 将网站分析结果反馈到网站营运中,优化布局。
将信用评级结果反馈到现有的信贷授信过程。 (三)2018年以后
完善大数据基础平台,增加在线和流式数据处理集群,通过构建计量模型和机器学习算法,针对数据分析的结果,对实时业务进行自动、快速的数据化决策支持。科技人员熟练掌握平台关键技术。
基础平台
增加在线和流式数据处理集群,用于对海量数据进行实时加工处理。
增加语音数据、视频数据采集解析模块。 采集更加广泛的互联网外部数据。
完成基础数据平台对外数据服务的实时和流式数据接口。 分析应用
通过数据分析应用云计算平台,构建计量模型、机器学习算法,实现实时的风险决策和客户营销,并贯穿到前中台业务运营过程中,提升银行服务智能水平。主要应用方向包括:
实时营销支持,实时风险管控支持。
加强语义分析(客服语音,微信、微博的留言,互联网的评价信息),改善服务质量。
业务流程
在营销、风控等经营管理活动中增加数据决策的自动化、智能化支持,并进行流程优化。
因篇幅问题不能全部显示,请点此查看更多更全内容