您的当前位置:首页正文

数据挖掘在宽带业务流失中的应用

来源:个人技术集锦


数据挖掘在宽带业务流失中的应用

摘要:通过对海量历史数据的有效挖掘,可以发现隐藏规律,进而在业务人员的识别下成为知识,为决策提供支持。本文来自作者在XX电信的项目工作实践:首先利用数据挖掘相关技术,对XX电信宽带业务流失客户进行了分析,有效的构建了宽带业务流失预警模型,并对模型的预测结果进行了检验;其次用模型预测出了宽带业务流失客户,并对预测到的客户进行细分,以求找准策反方案;最后在实际营销活动中实践了预测结果和策反方案。

关键字:数据仓库;数据挖掘;决策树;神经网络;决策支持

引言

数据挖掘技术融合了数据库、人工智能、机器学习和统计学等多个领域的最新理论和技术。它能够辅助决策者对困难业务问题做出明智决策,从而确定问题出现的原因,预测将要出现的问题,指导企业的经营和决策 [1]。随着市场竞争的日益激烈,产品同质化趋势越来越强,客户和业务的流失不可避免[2]。本文主要是从建立宽带业务流失预警模型的角度,解决XX电信当前面临的主要困难:业务流失客户界定难和策反方案缺乏。相对于离网客户表现出的硬流失而言,业务流失是根据客户的消费变化,确定客户是处于消费波动阶段,还是一段时期内趋于不可逆的下降阶段。预测出客户业务流失状况,对该部分客户实施针对性地策反,有助于提高存量客户保持率,同时也能有效地拉动收入和业务量的增长。

1数据的选取和规整

选取XX电信某年5~11月的宽带客户收入、时长和次数的明细数据,5~11月的宽带客户套餐变更、11月的客户资料数据。因原始数据量极其庞大,在不失全局特征的情况下,对数据进行了随机抽样,提取了6%的数据(53094个用户)作为训练集,4%的数据作为测试集;然后对缺失数据进行了补全;把异常值数据进行转换。使用的数据字段如表1:[3]

表1 原始数据字段

可以使用的字段比较多,各个字段对预测值的影响程度有很大差别;建模字段不是越多越好,太多会增加模型训练的时空消耗,甚至形成噪声,影响模型的准确度;所以在建立模型前,有必要进行特征选择。具体的规则如:缺失值最大百分比(70%),单个类别中记录最大百分比(90%),用依然比确定属性的重要性等。最终选择的字段如表2:

2预测模型构建

初步选用C5.0决策树算法、CHAID决策树算法和神经网络算法作为待选算法,分别建立预测模型。不断对这三个预测模型进行调优(变换参数),选取各算法的最优参数设置来训练模型。预测模型建立和验证的全过程如图1:

表2 特征选择后保留字段

图1 预测模型建立和验证的全过程

3流失预警模型选择

生成三个流失预警模型后,需要进行对比找出最准确的预测模型。三种算法用于本次预测的对比结果如表3,可以看出神经网络模型具有最高的预测精度,预测出了4274个实际流失型客户中的1694个,并且预测失误的客户数为1684个,在三种算法中相对来说是占比最小的。因此选用该模型用于业务流失客户的预警,将预测到的流失客户导出到Excel文件,这样业务流失客户就界定出来了。

表3 预测模型验证结果

4 聚类分析和客户细分

我们需要对业务流失客户进行细分,以求找到能针对不同的客户群体实施的

策反方案。首先使用聚类算法对客户数据进行初始的探索,发现有些字段和客户聚类的关联度很小,在聚类算法中就不使用这些字段。如果聚类不理想,就要多次对字段进行组合,直到找到比较明显的组合为止,这个过程是一个反复的过程。字段组合确定后,运用决策树C5.0算法对数据进行分类。细分结果如表4:

通过聚类再分类的方法,得到的6个客户群体,分类1、2、3、5的特征比较明显,实用价值高。对分类4、6 的客户可以再进行一次分类找出最合适的分类方法,就如数据仓库的建设一样,数据挖掘也是一个循环递进的过程。XX电信以此作为条件,对不同分类客户制定了相应的策反方案,使次月的业务流失得到很好控制,取得了显著的效果。

表4 客户细分结果

5结束语

为解决XX电信业务流失客户界定难和策反方案缺乏的困难问题,作者首先从原始系统获取数据并进行必要的数据规约(ETL),然后运用三种预测算法分别建立了宽带业务流失模型,根据评估结果,最终确定使用神经网络预测模型。用该模型预测出业务流失客户,然后进行细分,找到了最佳策反方案,为不同层面的客户提供相应的有针对性的服务,最大幅度地提高利润率和客户满意度,体现了一定的商业规律。随着数据挖掘技术的不断发展和进步,电信从业人员素质的不断提高,数据挖掘技术在电信运营中的使用也会越来越多,发挥越来越重要的作用。

参考文献:

[1] 段云峰. 数据仓库及其在电信领域的应用[M]. 北京:电子工业出版社,2003:4-5.

[2] 罗布.马蒂森. 电信业客户流失管理[M]. 北京:人民邮电出版社,2005:8-10.

[3] 漆晨曦,柯晓燕. 电信市场经营分析[M]. 北京:人民邮电出版社,2007:117-127.

因篇幅问题不能全部显示,请点此查看更多更全内容