您的当前位置:首页正文

基本征信数据挖掘分析

来源:个人技术集锦
姻博士论坛姻现代管理科学姻2015年第8期基本征信数据挖掘分析荫杨北京刘新海摘要院文章首先介绍数据挖掘的基本概念和处理步骤,然后讨论征信系统和数据挖掘的关系,认为征信机构作为数据工厂,数据挖掘的各种方法都可以找到很好的应用场景,通过广泛和深入地开展征信数据挖掘,能够更好地为量化信用风险管理服务。文章梳理出征信系统数据挖掘的基本框架,着重探讨基本征信数据挖掘:一方面处理的是基于信贷行为的基本数据;另一方面应用的是基本的、传统的数据挖掘方法。根据数据挖掘方法论的不同,文章介绍相应的信用风险数据挖掘应用,并结合国际征信机构的先进经验,给出具体应用案例。文章最后指出在征信机构全面开展数据挖掘的工作,不仅可以提高征信服务水平,还可为大数据时代的到来打下良好的基础。关键词:数据挖掘;征信系统;信贷行为;信用风险管理一尧问题的提出前提和生命遥若数据质量不高袁即使数据挖掘的技术再先数据挖掘渊DataMining袁DM冤又称知识发现渊Knowl鄄进袁耗费的功夫再大也无济于事遥步骤四院数据整合和转换遥即将多种数据源整合在一edgeDiscoverinDatabase袁KDD冤袁是指从数据集合的海量数据中揭示出隐含的模式尧发现先前未知的并有潜在起袁把数据变换和统一成适合挖掘的形式袁例如数据类型价值的信息和知识的过程渊JiaweiHan袁MichelineKamber袁和数据格式的转换袁缺省值和极值的处理遥步骤五院数据挖掘遥使用模式识别或机器学习的方法JianPei曰2012冤遥由于数据挖掘在应用过程中可以帮助商业决策这调整市场策略袁评估风险袁获得洞察力并进行正以及计算机信息处理手段袁对大量数据进行加工和分析袁确决策袁目前已经是人工智能和数据库领域研究的热点问来提取数据模式或者是系统性的模型遥数据挖掘既高度依题遥随着大数据时代的到来袁数据挖掘技术已成为许多互赖先进的统计方法和计算机技术袁也高度依赖数据分析人联网和零售企业的重要支撑技术和核心竞争力之一袁并被员的专业知识和经验遥这是数据挖掘的核心遥广泛地应用到管理和社会学科等诸多领域遥对作为天然就步骤六院性能评判遥并不是所有挖掘出来的模式或者具有大数据和云计算特征的征信业而言袁数据挖掘技术的模型都是有效的袁根据某种指标度量渊显著性检验尧准确性地位和重要性不言而喻遥目前国外征信机构正在广泛利用检验或者某种测度冤袁确定挖掘结果是合乎逻辑尧合乎情理数据挖掘技术袁进行信用风险管理方面的产品开发袁申请和合乎直觉的遥了许多关于数据挖掘的专利授权袁并开发出多种数据挖掘步骤七院将数据挖掘的结果用于决策分析遥根据数据产品遥数据挖掘技术已经成为它们的核心竞争力袁例如益挖掘的结果做出相应的决策建议袁例如改进风险管理策佰利渊Experian冤尧艾克飞渊Equifax冤尧环联渊TransUnion冤和略尧改进市场营销策略尧改进客户服务策略等袁以提高经营邓白氏渊Dun&Bradstreet袁D&B冤等遥管理的效益袁实现数据挖掘的商业价值遥结合信用风险管理的目标院对个人消费者和企业的风步骤八院数据挖掘结果应用遥挖掘所获得知识渊模式尧险进行评估袁减少交易过程中的信息不对称袁本文将征信模型尧规律尧策略等冤袁最终需要付诸于应用袁以产生现实的数据挖掘的基本步骤叙述如下院经济效益遥往往通过挖掘人员和IT技术人员合作袁开发一步骤一院确定商业目标遥该步骤主要是确定数据挖掘些计算机应用系统来实现遥所要解决的具体问题袁比如发现信用风险特征尧欺诈风险步骤九院数据挖掘的跟踪和提高遥数据挖掘是一个不特征尧客户流失特征等曰确定征信数据挖掘问题的覆盖范断发现尧不断总结尧不断提高的过程遥需要对数据挖掘的应围袁比如房贷产品尧信用卡产品或汽车贷款产品等遥商业目用进行跟踪和反馈袁分析问题袁提炼经验袁并且不断地更新标不仅指明了数据挖掘方向袁也是衡量数据挖掘效果的关迭代遥例如个人信用评分的模型每年都要重新挖掘和训键要素遥练遥步骤二院数据采集遥首先确定数据挖掘所涉及的具体二尧数据挖掘技术在对外的风险管理服务中的应用数据库或者数据来源渠道袁例如申请数据库尧客户基本信1.聚类分析在对外的风险管理服务中的应用遥聚类分息数据库尧交易数据库尧市场营销数据等袁其次确定通过何析渊ClusteringAnalysis冤袁也称为自动分类袁利用信用主体种技术手段获取这些有用的数据以及数据的有效期遥的信贷行为特征袁根据渊信贷行为尧风险模式尧信用主体基本步骤三院数据清洗遥消除噪声和删除不一致的数据袁进信息冤相似性的原则袁自动归类袁划分信用主体群渊也称为行数据质量检查袁确保数据可靠遥数据质量是数据挖掘的类冤遥信用主体的类可以描述一种特定的信用风险模式遥聚-54-姻2015年第8期姻现代管理科学姻博士论坛类分析是面向信用风险管理的数据挖掘的基本方法遥在征信服务中的应用无论公司行为或者是个人行为都具有一致性的特点渊1冤信用主体细分袁金融学的微观基础是行为科学院袁所袁以风险管理一直做的工作袁就是试图通过对公司尧个人行为的分析来预判公司尧个人的违约前景袁并为此开发出一系列的风险模型袁辅助授信决策遥相对于公司客户袁个人客户的行为更具有一致性和可预测性遥俗话说袁江山易改袁本性难移袁指的就是性格倾向的稳定性和连续性遥要直接在性格倾向于行为模式之间建立对应关系袁并不是很容易的事情袁替代的方法就是分群袁物以类聚袁人以群分袁只要把每个人所属的人群类别定位准确袁要预测其行为模式就比较容易遥从统计分析看袁特定人群的行为模式就有很高的同质性袁换言之袁不同人群在行为模式上有着明显的差别遥根据不同的人群有着不同的风险模式袁通过聚类分析袁实现对不同的人群进行不同的信用风险管理袁可以结合风险规则袁通过聚类分析袁将个人信用主体分为老龄消费群体尧高净值客户群体尧80/90后消费群体和新兴城镇居民群体袁然后进行各自的风险模式分析遥此外通过聚类分析袁可以发现一些新的信用主体的行为模式袁例如技术创新性企业会出现不同于一般企业的信贷行为袁这就可能对应着新的信用风险模式的出现遥社会发展趋势客户细分客户需求老龄消费者群体新兴城镇居民群体80/90产品对现有社保后消费群体高净值客户群体低风险保本型的银行尧医保有效补充的社保产品医疗服务和生活服务更丰富的理财产品以咨询为导向个性化的服务家族财富管理追求个性化7x24尧80/90网银服务移动金融服务人口老龄化富裕阶层扩大新鲜的金融产品互动式的费用无抵押贷款后消费群体不断壮大农村城镇化和城乡一体化低袁新型农村信用贷款有农村特色的理财产品和中间业务结合专家规则渊2冤欺诈检测袁聚类算法可以用于挖掘出异常欺诈行为遥反欺诈是信用风险管理中的重要内容遥袁征信机构可以提供的反欺诈服务包括资料来发现异常情况渊1冤文档交叉核对遥院渊2冤通过交叉对比对客户的历史信贷院共享已确认或疑似的欺诈行为院诸如英国的西法斯渊CIFAS冤等组织袁在会员机构之间共享确认的或怀疑的欺诈记录遥渊3冤欺诈评分院征信机构可以为特定的信贷机构或所有信贷机构开发欺诈评分产品遥渊4冤欺诈监测系统院通过建立欺诈监测系统袁设置欺诈监测规则来发现申请欺诈行为袁还可以通过还款行为进行分析来发现银行卡交易欺诈遥艾克飞公司也已开发出在线的数据挖掘产品防欺诈顾问渊EquifaxFraudAdvisor冤袁可以自动地进行欺诈检测袁以减少手工操作带来的风险分析是指通过对已知的信用主体的数据2.预测分析在对外的风险管理服务中的应用遥渊信贷行为和风险遥预测状态/趋势都已知冤袁通过挖掘袁构建出预测模型袁对未知的信用主体根据其信贷行为袁预测出其风险状态/趋势遥基于征信数据的预测分析是通过数据挖掘中的回归模型来实现的袁包括风险评估和风险预测袁两者区别在于院风险评估对目前的风险状况进行量化描述曰而风险预测是对未来的风险状况进行量化描述遥在征信服务中的应用主体的信用历史资料渊1冤信用评分遥信用评分原始模型是根据已知的信用院袁进行样本学习袁得到了信用评分模型袁根据信用评分模型袁来决定客户是否可以贷款或所可以持有的金额权限袁甚至是贷款利息率袁从而保证还款等业务的安全性遥随着风险管理和数据挖掘水平的提高袁信用评分已经成为一个比较宽泛的概念袁具体类型可达100多种袁例如申请评分尧欺诈评分尧盈利评分尧信贷审批评分尧破产评分等遥局评分是基于征信机构的数据开发而来的信用评分袁它与放贷机构自行开发的客户化信用评分有所不同遥它使用的是来自各放贷机构上报的信息袁基本涵盖了借款人所有的信贷记录袁包括借款人的贷款余额总量尧贷款总笔数和所以历史违约记录袁以及一些公共信息源的数据袁这是单个放贷机构无法拥有的的海量数据资源渊2冤宏观或中观的信贷风险预测指数遥袁可为宏观层面的风险预测提供具有前遥基于征信系统瞻性和准确性的数据信息遥从国内金融业的未来发展看袁对中性的政策性信息的需求将越来越迫切遥有外部监管方面的原因袁如资本监管体制改革遥也有来自银行内部管理的推动袁比如对信贷市场整体走势的信息需求袁对涉及金融稳定和系统性风险的信息需求等遥另外从宏观政策制定与实施的角度看袁也需要了解和掌握中观信息袁所以存在很多的衍生需求遥征信数据具有灵活丰富的数据维度渊如行业尧区域尧规模曰余额尧新增尧集中度曰各类产品曰期限尧利率尧五级分类等冤袁可以制作出高信度的预警信息和有特色的信贷指数体系袁生成行业尧区域金融生态分析报告或相应的产品遥例如利用个人信用评分和经济形势变化之间的关系Impact袁费埃哲公司渊FICO冤开发了FICOEconomic险和组合产品风险Index袁主要分析宏观经济环境变化引起的账户风遥借款人在消费者的整个账户管理周期内引入宏观经济变化对其账户的风险分析袁即FICO经济影响指数袁便于其做出更为有利的风险管理决策渊Classification冤3.分类分析在对外的风险管理服务中的应用遥成熟的一种方法分析可以说是数据挖掘技术中最常用遥分类遥分类分析可以看作是预测分析的一种特袁最殊情况遥在已知一些信用主体的类别标签渊这些类别的标签可以是风险预警的级别袁也可以是信用的等级冤的情况下袁对未知的信用主体的类别进行识别遥主要的原理是基于对已有标签的信用主体的类别和其行为特征之间通过数据挖掘建立映射模型袁这种模型称为分类模型袁将未知信用主体的行为特征输入到分类模型中袁就可以得到该信用主体的类别遥在征信服务中的应用渊1冤风险预警遥风险主动预警是目前商业银行最迫切院-55-姻博士论坛姻现代管理科学姻2015年第8期需要的信用信息服务之一遥目前商业银行的贷后管理和催收部门通过定期查询部分借款人的信用报告来跟踪借款人信用行为的变化情况袁但就目前单笔信用报告的查询模式而言袁如果抽样进行查询袁则被查询人的选取方法并无严格的科学依据袁无法保证覆盖面曰如果对本行的信贷客户全部查询袁虽然可以保证覆盖面袁但系统资源和查询费用的巨大开销将严重降低全局查询的投入产出比遥因此袁在借款人出现高风险事件时袁如征信系统能主动通知其它与其有业务来往的商业银行袁则可以高效地解决这一矛盾遥例如可以根据信用主体的如下信贷记录将预警可以分无预警尧轻度预警尧中度预警和重度预警四级院渊1冤当前预期状态曰渊2冤征信评分曰渊3冤是否有信用卡取现情况曰渊4冤最近12个月信用卡/贷款审批/担保资格查询次数曰渊5冤是否欠税记录曰渊6冤是否有行政处罚记录曰渊7冤是否有电信欠费记录遥然后搜集样本数据袁训练预警分类模型遥最后实现对信用主体的自动标示预警分类收入和工作情况对其信用程度进行分类渊2冤信用评级遥可以根据信用主体的债务遥袁为授信额度的确尧还款情况尧立以及其它风险管理措施提供依据遥艾克飞公司开发出小企业风险级别预测渊SmallBusinessRiskClass冤袁预测小企业的商业账户在未来12个月内出现严重拖欠渊90天以上冤或破产的风险级别遥账户风险分为1个级别~5个级别遥该分析工具利用的信息包括商业支付信息尧公共记录以及来自SBFE的银行信贷和金融租赁信息遥征信机构可以为信贷机构设计一系列评级模型袁并协助放贷机构制定客户关系管理战略观尧量化地展示了客户的信用风险渊1冤模型跟踪和性能检测院信用评级一定程度上客遥袁为保障评分模型有良好的预测能力袁要不断地进行模型跟踪调整袁征信机构可以提供一些工具用来监控评分模型的性能变化袁判断在客户群发生变化时评分模型是否仍有良好的好坏区分能力遥进一步区分恶意拖欠的可能性渊2冤催收评级院对于有逾期记录的客户袁帮助放贷机构针对不同情袁通过催收评级况定制催收方案袁而不是采取单一的催收措施渊例如所以逾期30天的客户都会收到相同的催收信函冤遥这种更有针对性的催收方案能帮助信贷机构有效减少损失袁提高催收效率遥定义4.院相关性规则相关性规则分析在对外的风险管理服务中的应用渊Associationrule冤分析是数据挖掘中一遥种简单而又实用的技术遥一个典型的例子就是野购物篮冶分析袁即通过发现消费者放入他们野购物篮冶中的商品之间的关联渊频繁地共同发生冤袁分析顾客的购物习惯遥在金融领域袁相关性规则分析可以用来发现银行客户对所提供的金融服务于产品间的关联性尧不同信用产品价格之间的关联性尧不同市场变动趋势之间的关联性遥在信用风险管理中袁相关性规则挖掘可以发现信贷数据库中信贷行为和信用风险之间的关联性规则袁这些规则反映了信用主体的风险模式遥-56-在征信服务中的应用院可以通过相关性规则分析来发现一些风险关联模式渊或风险特征要素冤袁包括袁例如信用主体信贷违约和信用主体的哪些基本信息有关袁例如收入尧职业尧年龄尧经营状况和行业形势等曰自动地发现这些风险因素的相关关系袁这也是大数据时代中所强调的重视数据内部蕴含的相关关系的基本思想遥从常识上来看袁两个因素可能毫不相关袁但是存在很强的关联效应遥这就为信用评分或者其它风险量化分析选取主要的关联因素渊特征冤提供依据遥三尧结语征信机构的核心资产是数据袁作为数据工厂袁各种数据挖掘技术都可以得到很好地应用遥征信数据挖掘既可以面向不同的服务对象也可以应用到不同的风险层面遥本文重点研究的是基本征信数据挖掘院从数据角度来说袁处理的信贷行为数据是最基本的征信数据曰从分析技术来说袁所采用的数据挖掘方法不仅技术手段和应用相对成熟而且国外知名征信机构已有很多成功的应用案例可以借鉴遥通过对征信系统进行广泛和深入地数据挖掘袁不仅可以更好地进行量化风险管理和征信系统维护袁还能为未来征信大数据时代的到来打下更好的基础遥未来袁本研究将继续深入地探讨征信数据挖掘的相关问题袁例如如何深入开展基于聚类的客户细分为信用风险服务遥同时也关注一些热点和前沿问题袁例如对基于关联关系的征信数据挖掘袁基于非结构化数据的征信数据挖掘袁以及大数据尧互联网金融尧社交媒体尧移动终端对征信服务以及征信数据挖掘的影响用等热点话题遥参考文献院[1]JiaweiHan,MichelineKamber,JianPei.数据挖掘概念与技术[M].北京:机械工业出版社,2012.[2]陈建,信用评分模型技术与应用[M].北京:中国财政经济出版社,2005.[3]BartBaesens、TonyvanGestel,Creditriskmanagement:BasicConcepts,Oxfordpress,2009.[4]马超群,兰秋军,陈为民.金融数据挖掘[M].北京:科学出版社,2008.[5]ViktorMayer-Sch觟nberger、KennethCukier.大数据时代[M].杭州:浙江人民出版社,2013.[6]中国银行和征信中心联合课题组研究报告.征信系统在个人业务信用风险管理中的应用,2013.基金项目:国家自然科学基金青年基金(项目号:61105058);国家社会科学基金(项目号:13CJY011)。作者简介:杨北京(1980-),男,汉族,江苏省宿迁市人,中国人民大学商学院博士生,研究方向为互联网金融与电子商务,现就职于中国工商银行总行;刘新海(1976-),男,汉族,河南省南阳市人,中国人民银行征信中心高级研究员,中国人民银行金融研究所应用经济学博士后,研究方向为金融大数据和征信数据挖掘。收稿日期院2015-06-10。

因篇幅问题不能全部显示,请点此查看更多更全内容