银行业存款偏离度预测模型构建实践
中国银行个人数字金融部 郑玉 边罡 李春水 张燕琳
2022年1月12日,国务院发布的《“十四五”数字经济发展规划》指出要全面加快金融等服务业数字化转型。同时,《中国银保监会办公厅关于银行业保险业数字化转型的指导意见》提出,为全面推进银行业数字化转型,需全面深化数据在业务经营、风险管理、内部控制中的应用。为此,商业银行不断推动将数据资产应用转化为业务实效。
根据人民银行披露的数据,季末月末的存款增长率往往较高,除法定节假日等因素外,银行“冲时点”行为也可能导致数据虚高。为加强商业银行存款稳定性管理,2018年银保监会对存款偏离度管理有关事项进行了明确,要求商业银行的月末存款偏离度不得超过4%。
本文结合中国银行实践,主要阐述利用机器学习技术建立存款偏离度多步时间序列预测模型及其应用方法。通过对未来一个月逐日存款偏离度的预测,引导总分机构加强流动性和资产负债管理,做好各时点的流动
性安排,合理安排资产负债总量和期限结构,提高流动性风险管理水平。
一、模型建立
1.业务场景定义
“存款偏离度”是为约束银行业金融机构拉存款“冲时点”行为而出台的监管指标,用于衡量银行存款波动情况,旨在引导银行切实加强存款基础性工作,强化合规经营,服务实体经济,避免月末、季末通过“高息揽储”“返利吸存”等不正当手段短期增存,并减少由此带来的市场资金波动与宏观统计数据失实问题。其定义计算公式为:
为根据存款偏离度走势提前预测月末偏离度情况进行存款规模的主动管理与调节,模型拟对每日存款偏离
2022 . 08 中国金融电脑
59
BUSINESS TREND度进行预测。通过存款偏离度公式可以看出,存款偏离度监管指标的计算依赖于日存款余额,因此将日存款余额作为本次建模的预测目标。
(2)平稳性检验及预测目标重定义
序列平稳性是时间序列变形分析建模的重要前提,如果序列非平稳,时间序列的统计规律随时间的位移发生变化,当前建模数据无法代表未来数据的规律,从而导致预测失灵。因本次预测目标变量为每日账户存款余额,故建模前首先对该变量进行平稳性检验。
图1是账户存款余额的自相关图,其横轴表示天数,纵轴表示自相关系数,从图中可以看出自相关系数由正衰减为0,并在一段延迟期内,衰减为负,呈现出三角对称性,这是具有单调趋势的非平稳序列的典型图示。同时利用假设检验的方法,对该变量进行检验,P值为0.908788,以常用的判断标准值0.05作为参考,该变量p值远大于0.05(p值为统计学的经验值,P值以0.05
2.数据情况
本次建模可利用的数据包括中国银行全辖近942天的逐日个人存款日终余额数据,涉及日期、账户余额等数据项。此外,基于对实际业务分析,影响账户存款变动的主要特征还包括表外理财、基金、保险等投资类产品的到期金额,客户当前投资类产品持仓余额,代发薪金额;季节性因素包括农历春节等法定节假日。受银行保密性要求限制,本文以下实验部分不再给出账户存款余额具体数值,原始样本数据样例见表1。
3. 建模过程
由于该模型预测目标为未来31天的账户存款余额,是数值型的变量;同时每日的账户存款余额与其前一日的账户余额有着非常强的关联性,账户存款余额既是预测目标又是特征变量,故该建模场景是一种非常典型的时间序列回归预测。
(1)数据清洗
本次建模数据是从生产系统取用的生产数据,数据质量较好,在读取时注意数据类型的设置,对于极个别日期的表外理财到期金额缺失值的处理,采用了均值插补方法,具体做法是利用前后5天的平均值对表外理财到期金额进行填充,由于其周末值为0,因此对周末的数据使用0进行填充。
图1 账户存款余额自相关图表1 原始样本数据样例
日期2020年3月1日2020年3月2日……2020年12月31日********存款余额****表外理财到期金额****投资类产品持仓余额****代发薪金额****60
FINANCIAL COMPUTER OF CHINA
Business trend业务趋势
为界,小于0.05为有统计学差异的临界点 ),说明其支持原假设,且该变量是非平稳序列。由于日存款余额整体呈递增趋势,直接建模易导致模型失灵,需进行序列平稳化转换:将每日账户余额的预测转化为存款余额的增量预测,由于要预测的是“T+31”日的账户余额,可分别将与T日账户余额之差作为新的预测目标,并再次进行平稳性检验。账户存款余额日差额平稳性检验结果如图 2所示,该序列的自相关系数较小,一直在零轴附近波动,是随机性较强的平稳序列。同时利用假设检验方法对该变量进行检验,P值为0.000021,可
认为该序列为平稳序列,建模的目标变量确定为“T+n”日账户余额与T日账户余额之差。
(3)特征工程
本次可用于建模的特征列较少,因此使用了特征工程技术构造更有效的特征以提升模型效果。特征工程主要从日期衍生特征、滑动窗口特征、金额涨跌特征等维度进行构造。
① 日期衍生特征
原始的日期是“年-月-日”格式,首先将其拆分为年、月、日三个维度。因账户余额会受周期性的影响,故对日期属性执行进一步衍生,包括一年第几周、一季第几周、一月第几周、一年第几天、一季第几天、一月第几天、一周第几天、季度、是否年初、是否年末、是否月初、是否月末、是否季初、是否季末、是否周初、是否周末、是否节假日等。
② 金额滑动窗口及其统计特征
滑动窗口为指定单位长度中框选的时间序列,可用于构造涵盖时间序列的特征,如图3所示,滑动窗口大小N为5的特征变换示例,可取窗口大小为不同值,构造表外理财到期金额、投资类产品持仓余额、代发薪金额的滑动窗口属性特征,使其表达时间序列特性。同时,
图2 账户存款余额日差额平稳性检验结果在滑动窗口范围内,增加最大值、最小值、均值、四分
图3 滑动窗口构造时间序列特征2022 . 08 中国金融电脑
61
BUSINESS TREND位点数四个维度特征,用以刻画滑动窗口时间周期内的波动情况。
③ 存款余额涨跌趋势特征
为加强周期内趋势变动的刻画,需构造逐日涨跌特征。如图4所示,间隔天数M为1时,趋势Trend0表示前天相对昨天的趋势变化,涨为1,跌为0。这里间隔天数M从1取到7,实际上趋势特征表征了15天的存款余额涨跌信息。
(4)模型训练及效果评估① 时序交叉验证及评估标准
由于时序数据不满足独立同分布特性,传统交叉验证方法会将未来时刻的数据划入训练集,进而出现用未来规律预测历史结果的“作弊”行为,因此在模型构建过程中采用时序交叉验证,以保证测试数据不会受到时序训练数据的影响,如图5所示,采用三折交叉验证方法划分训练集和测试集,使用3次验证的度量均值作为模型最终的性能指标。
本文采用的是均方根误差(RMSE)作为模型的评价指标,该指标为观测值与真实值之差的平方和与观测次数比值的平方根:
注:h(xi)为预测值,yi为实际值② 多任务多模型框架构建
由于该业务场景需要连续预测“T+31”天的账户存款余额相对于T日的变化量,采用LightGBM算法建立31个独立回归模型。对31个独立模型的预测结果及实际值的对比,可以发现,未来1~5天、6~25、26~31的预测趋势较为一致。需通过多任务模型进行优化调整,即1~5天,6~25天,26~31天每类模型共享一套参数,分别训练3类31个模型后最终进行拼接整合。
图5 时间序列交叉验证划分图4 周期内存款余额涨跌趋势变动62
FINANCIAL COMPUTER OF CHINA
Business trend业务趋势
在测试集进行评估,连续31天预测的总体RMSE约为132,保持在较低水平,余额趋势预测基本准确,有明显规律。如图6所示,存款预测跟踪在无极端突变的情况下,基本准确。
4. 应用落地
本次建模采用批量预测的方式进行预测,与行内个人业务管理App进行对接,行内业务管理者可通过手机端对预测结果进行查看,并指导业务经营。同时设置阈值4%,当偏离度阈值超过4%,会向管理者主动发送预警提示。该模型上线近一年,预测趋势基本准确,生产环境下,日均RMSE在500以下。
二、未来展望
受限于历史数据积累等情况,当前模型存在一定的局限性。一是本次建模仅针对全辖汇总数据,后续需
图6 账户存款余额预测及真实值对比将机构、地域等因素纳入考虑,按照不同层级机构进行细化模拟,使得模型应用更具有针对性,更有效地
③ 分类和回归联合建模进行模型优化
在进行模型效果评估的过程中发现,会出现预测数值准确但趋势恰好相反的情况,如图7(左)所示。为优化此种情况,采用分类和回归联合训练的多任务多模型框架进行改进,即是先对增量差值建模回归任务,同时对增量的涨跌数据建立分类任务,改进后的效果如图7(右)所示,RMSE降低了35%。
指导业务开展。二是建模的数据量及特征不够丰富,随业务数据积累,未来将补充更多数据,如每日资金流向、用户消费情况等,对模型进行迭代优化。三是当前模型是线下训练后进行线上预测,随着时间推移,业务情况发生改变,模型准确率会逐渐降低,可通过构建线上“自适应”模型解决该问题,每隔一段时间,可在线上实现一次模型自训练,增强模型对新数据的适应性。四是逐步扩大应用场景,在预测准确性稳定后,将模型用于表内外产品排期及分行营销、经营指导。
监管机构出台存款偏离度监管指标,旨在衡量银行存款波动,监测存款的日均余额,以引导商业银行纠正单纯追逐利润、攀比扩大资产规模的经营理念。当前上线的存款偏离度模型是中国银行通过人工智能技术提升重要业务指标把控能力的一次初探,也为后续深化数据在业务经营、风险管理、内部控制中的应用积累了经验,同时还可将人工智能技术用于监测流动性风险、市场风险等其他重要监管指标。未来,人工智能技术将成为银行业务发展的有力助手,在精准营销、风险控制、运营
图7 模型优化前后效果对比
管理、客户服务等领域发挥重要作用。
2022 . 08 中国金融电脑
63
因篇幅问题不能全部显示,请点此查看更多更全内容