互联网+大数据模式下的征信 以芝麻信用为例 才晓阳 (中国人民银行白山市中心支行吉林省白山市134300) 内容摘要:芝麻信用作为蚂蚁金服旗下独立的第三方信用评估及管理机构,通过运用大数 据、云计算及机器学习等技术,客观呈现个人的信用状况,并已在消费金融、信用卡、租房、租 车、酒店等多个金融与生活类场景为用户、商户提供信用服务,让其能够享受信用带来的便利 和价值。本文对芝麻信用概况及特点进行了全面论述,并深入剖析了其存在的问题,最后提出 了促进大数据征信机构规范、健康发展的相关建议。 关键词:芝麻信用数据信用评分征信产品 中图分类号:F832.1 文献标识码:A 文章编号:1o03—7977(2016)11-0073-03 一、芝麻信用概况 的优势的基础上,积极尝试前沿的随机森林、决 (一)在数据来源上。芝麻信用的数据来源主 策树、神经网络等模型算法,挖掘出和信用表现 要包括三个方面:第一是阿里体系内的数据。从 有稳定关联的特征,从而更加高效和科学的发现 渠道的角度来分,其电商交易数据来自阿里巴巴 大数据中蕴含的信用评估价值。目前,芝麻信用 体系,互联网金融数据则来自蚂蚁金服;第二是 应用了一种改进的树模型GBDT,深入挖掘特征 外部合作机构提供的数据。对于外部数据的获取 之间的关联性,衍生出具备较强信用预测能力的 主要有两种方式,政府方面的数据以购买方式获 组合特征,并将该组合特征与原始特征一起使用 取为主,包括工商、学历学籍部门、法院、公安、电 逻辑回归线性算法进行训练,从而获得一个具备 力、煤气公司等公共事业机构。另外,一些本身具 可解释性的准确的线性预测模型。 有大数据积累的商业公司也是芝麻信用的合作 (三)在主要产品和服务上。芝麻信用体系包 对象,比如运营商、P2P公司等,这部分可能会通 括芝麻信用评分、信用报告、反欺诈、行业关注名 过合作、置换、服务输出等方式获得。第三是用户 单等一系列信用产品,提供反欺诈IVS信息验证 自主提交的信用数据。芝麻在2015年7月上线 服务(基于实名用户的欺诈风险识别,帮助提升 了上传功能,用户可以主动上传个人信息,包括 合作伙伴反欺诈识别能力)、芝麻数据变量服务 学历学籍、单位邮箱、职业信息、车辆信息和公积 DAS(还原用户画像,个性化的策略模型)、负面 金五个方面,比如上传工作证明、公积金记录、缴 信息披露、还款提醒等服务。 税证明,资产证明之类的材料给芝麻信用,然后 芝麻信用评分即芝麻分是芝麻信用产品中 会得到一个更全面更准确的芝麻分。目前芝麻信 的核心产品,并为用户提供信用评分服务。芝麻 用带有购物、金融和社交三种不同维度的数据, 分一个看似简单的分数,背后是芝麻信用对海量 其接人的外部数据源在八成以上,而阿里的数据 信息数据的综合处理和评估。芝麻评分与美国 源已减少至不足两成。 FICO信用评分类似,分数分为五个级别,分数越 (二)在数据处理技术上。芝麻信用在构建信 高代表信用程度越好,违约可能性越低。 用评分模型体系时,利用云计算、机器学习等技 (四)征信产品应用效果。芝麻信用的技术和 术,能以较低的成本对海量数据的关联性进行分 评估结果已在多种金融类和生活类场景下有所应 析,还在充分研究和吸收传统征信评分模型算法 用,旨在向合作方提供更多元的决策分析要素,而 北 方 金 融 Z 0 I m Z 》 Z n m C一 0 C 》 073 圃芝麻信用分 评分区间 350—950分 工作研宄2 一 FICo评分 300-850分 芝麻分与FICO评分的比较 评分维度 5个,包括信用历史、行为偏好、履约能力、身份特 5个,包括信用偿还历史、信用账户数、信用使用年 质、人际关系 限、正在使用的信用类型、新开立的信用账户 由低到高划分5级:极差(350~550)、中等(550~ 不具体划分等级,一般而言,680分以上代表信用状 评分等级 600)、良好(600~650)、优秀(650 700)、极好 况卓著,620分以下代表信用状况极差,620~680之 (700~950) 间,信用状况还需做进一步核查 应用领域 目前在与芝麻信用开展合作的商户以及部分个人 评分结果被美国三大个人征信机构采用,广泛应用于 北 方 奎 融 / 舌 鬲 翌 考 舌 m 暑 与 广_ 074 消费金融领域中应用 非代替机构本身进行最终决策,目前已得到了多 数合作机构的肯定。在金融场景的应用中,芝麻的 评估结果很早就应用在互联网信贷业务中,经过 了实践的沉淀和摸索,应用效果日趋成熟。 二、芝麻信用的特点 (一)数据源广泛。传统征信数据单一,主要 来源于金融信贷机构及公共机构,只有个人基本 信息,以及信用卡、银行卡使用记录等,这些单一 信息无法完整地描述一个人的信用状况,而芝麻 信用的数据来自包含能够反映用户特质的各种 信息的互联网行为,因此有着非常广泛的信用数 据来源。芝麻信用大约有接近3亿的实名用户数 据来源、200多万小企业贷款的数据以及千万级 的天猫分期购、花呗产品数据,除传统的信贷相 关数据外,还涵盖了网购、转账、支付、理财、购 票、面面水电煤缴费、租房租车信息、社交关系等方方 ,同时将考虑IP、电脑设备指纹等能反映用 户行为稳定性的网络相关数据。芝麻信用如同一 个信用磁铁,人们“触网”留下的点点滴滴痕迹都 将被捕捉。 (二)群体覆盖面广。央行个人征信主要覆盖 有信贷记录人群,其覆盖率仅为35%,还有很多 人群由于缺乏历史信贷记录,成为传统信贷机构 “服务不了、服务不好”的客户群体,难以便捷、低 成本的享受基础信贷服务。而来自互联网的信用 数据能够解决大部分没有借贷记录者的信用问 题,进一步降低交易中参与各方的信息不对称和 信息收集成本。2015年末我国已有6.88亿网民, 人群覆盖面非常广,芝麻信用借助互联网的力量 可以覆盖数量庞大的网民群体,且很多是传统征 信机构未能覆盖到的广大草根人群,如从未有过 借贷、未申请过信用卡的人,学生群体、蓝领工 人、小微企业主、个体户、自由职业者等。芝麻信 用通过他们方方面面的行为轨迹数据,利用大数 据技术和数据分析模型评估出其信用等级,可以 让征信覆盖到更多、更广的人群,是对央行个人 金融、通信、公共服务、日常生活等领域 征信系统良好、差异化的补充,可以提升整个征 信体系的覆盖率,具有一定普惠性质。 (三)时效性更强。任何数据只有在持续更 中才能保持准确性。互联网发展给个人征信行业 带来了跳跃式发展。随着互联网的发展,人的行 为变成24小时可记录。芝麻信用每天获取PE 级别的海量用户行为数据,这些来自互联网的信 息能够实时反映用户的行为特征,确保数据质量 的可靠性和数据内容的新鲜度。一方面芝麻信用 包含了消费偏好类、人际关系类、黑名单信息等 动态指标,动态指标的加入意味着用户的信用评 估不再是独立和固定不变的,而是通过用户最勃 消费及经济水平等信息的评估得到的实时结果 另一方面芝麻信用具有丰富的使用场景,如通趔 信用使用出租车、人住酒店等服务,但同时,这些 使用场景下用户的行为也是用户信用评估的指 标,这就使得芝麻信用可以保持实时的更新,从 而更准确及时地反映用户的信用水平。 (四)应用和服务场景丰富。随着国内个人信 用交易的不断壮大,市场对征信产品和服务的需 求也越来越多样化。传统征信的信用评估仅针刘 贷款、购置房屋等特定的使用场景,而基于阿里 巴巴在网络购物和网络支付领域强势的产品线, 芝麻信用面l临丰富的使用场景。芝麻信用通过线 上线下合作方式,目前已直接对接互联网购物 台、婚恋、签证申领、餐饮、个人消费金融等多 金融与生活类场景,通过直观的芝麻信用分衡量 信息主体的信用状况,在多个生活场景中为用户 提供优惠和便利。此外,芝麻信用评分已在多个 场景之间进行了相互验证,其信用评分模型具有 较好的可拓展性与通用性。未来芝麻信用将串联 更多的非信贷数据来源,不断丰富征信产品在社 会生活中的应用,以满足社会多层次、全方位、个 性化的服务需求。 (五)安全有保障。一是在信息安全管理方面。 芝麻信用信息安全体系包括七大制度,好比七重 _瘪—啊___ 肚 ~ ,、, ,, ~ 安全保障保证信息安全,覆盖权限管理、数据处 哩、系统运行、物理安全、日常运维、组织体系等 疗方面面的内容,而且有24小时信息安全自动 监控系统,具备自动预警功能,确保信息安全。二 是在采集和使用用户数据所涉及的隐私安全方 面。芝麻信用的做法是需事前征得用户授权,用 户信息的收集、整理、加工、输出,无论是芝麻还 是第三方,都要获得用户的授权。没有用户的授 {叉,无论是芝麻信用还是各合作伙伴,都不能调 的与个人信用关联度比较弱的非结构数据,如图 片、视频、音频等内容在用户行为数据中的占比 不断增加,而处理非结构数据的技术却发展相对 缓慢,如果未来无法准确地分析用户产生的非结 构数据,像芝麻信用这样的互联网征信机构可能 会陷入数据匮乏的境地。三是存在虚假数据。比 如个人的购物情况看起来虽然交易量较大,但可 能是帮助其他人或者企业进行采购,所以单纯依 靠线上数据可能有很多虚假信息。 用用户的数据。所有数据都通过科学的评分模型 运营计算,没有人工的接触。系统还会通过运算 规则自动将一些资产、交易明细等敏感数据进行 晚敏处理,不会在芝麻信用产品中出现相关的明 细、敏感信息。三是在技术及系统层面,芝麻信用 在保证独立数据库的基础上,通过物理层、逻辑 层对不同类型的数据进行分级隔离,同时配合严 恪的机房管理、异地灾备等措施全方位保证用户 数据安全。2016年4月,芝麻信用通过英国标准 协会(BSI)权威评估认证,成为国内首家获得 [SO信息安全认证的征信机构。 三、芝麻信用存在的问题 (一)征信活动缺乏严格的法律约束,信用征 集需立法定边界。一方面相对于政府部门以及金 融机构归集的信息,第三方机构征信在收集社会 信用信息等方面可起到完善和补充作用。但目前 我国现行的法律法规在信用信息采集和使用范 围上都缺乏明确的规定。哪些信息可以征、哪些 信息不能征,还没有明确规定,进而导致以芝麻 信用为代表的这种大数据征信模式在个人隐私 保护方面较难把控,可能有意或无意地采集并使 用了用户的敏感数据,存在法律和道德风险。另 一方面芝麻信用采集的数据大部分是网络信息, 如用户的交易数据、浏览记录、好友信息和选择 偏好等。对于这部分新兴信用数据,我国目前出 台的《征信管理条例》和《征信机构管理办法》还 没有明确其合法性和商业应用的规范。 (二)芝麻信用存在数据匮乏和虚假问题。一 是数据的维度不够完整。阿里巴巴在网络购物, 互联网金融等领域有丰富的数据,但是在社交、 搜索引擎、网络游戏等领域,其数据相对是匮乏 的。此外,对于从来不用支付宝、不上淘宝的消费 者,阿里也很难采集到他的数据。这些因素都会 导致数据有失偏颇。二是用户非结构化数据日益 增多。随着时代发展,人们在互联网行为中产生 (三)未与政府、P2P网贷等其他平台做到信 用信息共享。芝麻信用收集的数据主要来源于阿 里生态系统,对于其他平台的数据收集还处于起 步阶段。目前芝麻信用还未与央行的征信系统对 接,无法获取个人信用信息基础数据。并且,我国 政务信息开放程度不高,并未完全开放税务、海 关等政府部门的信息。芝麻信用现在仅接入了工 商、学历、学籍、公安四个方面的数据,因此无法 获取完整的个人信用数据。除了无法共享政府数 据外,芝麻信用在获取P2P网贷平台数据这一 方面也存在困难,部分P2P平台对评分的可靠 性存在质疑,并且P2P平台也拥有自己的评分 模型,因此不愿将自己的信贷数据与芝麻信用共 享,目前接入的P2P大概不到10家。目前,我国 民间借贷、互联网金融数据形态各异、数据的定 义不同、业务操作规范不同,授信标准也不同,很 难形成统一的数据标准供行业共享。同时,各征 信机构之间存在竞争,数据是各机构的核心资 产,想要实现信息数据的共享难度也比较大。 四、相关建议 (一)建立与完善相配套的法律法规。合理合 法地进行个人数据信息的采集与应用是个人征 信行业发展的基础和前提。但我国尚未正式出台 个人隐私法,《个人信息保护法》仍在制定中,导 致市场上合法征集信用信息和不当采集、滥用公 民信息、侵犯合法权益的现象并存。征信业随着 互联网、移动互联、大数据领域应用创新的加剧, 亟须修订和完善相配套的法律法规。在国家层 面,应尽快建立相配套的数据隐私及安全保护体 系,明确个人信息采集与使用的原则及边界,特 别是数据拥有者和使用者之间的责权利。同时具 有创新能力的征信机构应该利用窗口期,完善自 身数据获取和治理能力,使数据使用透明化,进 而积极参与政策及配套法规制定,共同推动征信 行业健康快速发展。 北 方 金 融 \ 0 n ・ 0 》 075 北方金融/弓RTHE翌FIN芝nm 对保险业纳入征信体系建设的厂L点思考 冀鹏飞赵明 (中国人民银行锡林郭勒盟中心支行锡林浩特026000) (中国人民银行二连浩特市支行 二连浩特01 1 100) 内容摘要:全国统一企业和个人征信系统,能有效解决金融机构、保险类金融机构开展 保险业务面临的信息不对称问题。随着保险公司业务的快速发展,为控制相关信息风险,本文 通过调查了解二连地区保险公司纳入征信系统的重要意义以及存在的问题,进行深层次分 析,并提出相关政策及建议。 关键词:保险行业纳入征信系统建议 中图分类号:F842.4 文献标识码:A 文章编号:1003—7977(2016)1卜0076—02 一、保险业纳入征信体系基本框架设计 (一)加强保险业征信体系建设的制度要求。 2011年11月16日,中国保监会出台了《关于保 险业参与加强和创新社会管理的指导意见》,明 人机构及其他组织的信用信息,并对信息需求 者提供信用报告、信用评估、信用信息咨询等服 务,帮助其判断、控制信用风险,进行信用管理, 最终在行业内形成良好的信用环境。 (二)构建保险业内部信用信息管理平台。一 确了保险业要积极参与社会征信体系建设的要 求。2014年8月13日,国务院颁布《关于加快发 展现代保险服务业的若干意见》提出:全面推进 保险业信用体系建设,加强保险信用信息基础 设施建设,扩大信用记录覆盖面,构建信用信息 共享机制。保监会根据相关文件精神,着手探索 依法收集、整理、保存和加工行业从业人员、法 (二)加强新技术应用。未来个人征信行业对 于新技术的应用将成为新常态。从国外成熟市场 是建成机构与高管人员管理系统,各派驻机构 可通过保险监管内网查询辖内保险机构、高管 人员基础信息与受行政处罚信息等。二是建立 了保险中介监管信息系统,社会公众可通过互 联网查询营销员资格证、展业证以及保险中介 机构、高管人员情况等。三是基本建成了各地区 设。另一方面各家征信机构应该积极在价值链上 找到利益共同点,搭建数据共享平台,实现一定 程度的信息共享或交换机制,有效降低数据获取 成本,带来一定协同效应。 参考文献 的发展经验来看,新技术的应用并没有因为存量 体系的高度发展而被忽视。我国个人征信机构应 该深刻理解技术的潜力与边界以及行业需求,并 匹配相应技术人才,将分布式数据存储与处理技 术、对于非结构化、碎片化及海量数据的分析技 076 [1]叶文辉.大数据征信机构的运作模式及监管对策 I-d3.武汉金融,2016(02):66—68. 术、新的算法与建模方式等“大数据技术”的众多 技术进步,在个人征信领域得到广泛应用。 (三)整合共享,优化行业数据供给。为解决 信用信息共享难的问题,一方面,政府部门应该 建立信用信息共享交换平台,并开放政务信息, 将符合条件的征信机构接人央行征信系统,实现 国家金融基础数据库的共享。此外,借鉴美国的 经验,制定统一的数据采集标准与报告格式,使 行业共享信用数据成为可能,推动数据标准化建 1-23高国华.解构芝麻信用:互联网+大数据模式下 的征信1-N].金融时报,2015-08一l 7(008). [33许琪.阿里巴巴芝麻信用存在的问题及相关建议 [J].金融会计,2015(09):76—8O. [4]包慧.起底芝麻信用“不一样”的数据源[NI.21世 纪经济报道,201 5-06—1 7(002). [5]高国华.“芝麻分”亮相激活个人信用市场[N],金 融时报,2015-03—16(008). 163陈莹莹.征信进入大数据时代IN].中国证券报, 201 5一O4—20(003).