人行二代个人征信及变量衍生深度解读

人行二代个人征信及变量衍生深度解读原标题:人行二代个人征信及变量衍生深度解读说到人行征信,咱们先来看几组数据,到2019年末,央行征信体系共收录10.2亿天然人,占到我国总人口的70%;个人征信体系接入安排3737家,根本掩盖各类正规放贷安排。2019年,个人征信体

人行二代个人征信及变量衍生深度解读
原标题:人行二代个人征信及变量衍生深度解读 说到人行征信,咱们先来看几组数据,到2019年末,央行征信体系共收录10.2亿天然人,占到我国总人口的70%;个人征信体系接入安排3737家,根本掩盖各类正规放贷安排。2019年,个人征信体系累计查询量为24亿次,日均查询量达657万次。由此可见,人行个人征信作为个人信贷决议计划的榜首信息来历,所发挥的作用越来越重要。 经过半年多的试运行,二代征信体系于2020年5月4日开端全面代替一代体系。但怎么充沛开掘和运用好二代个人征信,进一步进步个人信贷决议计划功率和服务质量,这不是每家金融安排都能完善和深化的。有鉴于此,在一二代个人征信转化的过渡时期,咱们从个人征信衍生变量动身,期望能为金融安排在运用二代个人征信数据方面供给些思路和做法。 一、人行二代个人征信内容和根本结构 自2018年着手发动二代个人征信以来,央行以及第三方安排对二代征信做了许多解读,二代个人征信比较一代在本质内容上并没有太大的改变,只是在数据维度上愈加丰厚,比方:手机号码个数由之前的1个添加至5个;未结清告贷细分为非循环贷账户信息汇总、循环额度下分账户和循环贷账户;具体还款体现从近两年延伸至近五年(一代陈述中两年以上五年以下只要逾期信息)。这些数据维度上的改变,在必定程度上添加了衍生变量规划的难度。因而,为了更好地阐明变量衍生逻辑,咱们先对二代征信数据的安排结构做个概要阐明。 (一)数据块与信息单元 二代个人征信陈述本质上是一个数据集,数据集依照数据间的相关性和事务逻辑分层次组成。具体来讲分为大类信息(8个)、数据块(24个)、信息单元(24个),信息段(58个)以及(组合)数据项(拜见下文)等5个层次,如表1所示。 表1 人行二代个人征信安排结构 序号 信息分类 数据块个数 信息单元个数 信息段 1 陈述头 1 1 5 2 个人根本信息 4 4 5 3 信息概要 5 5 15 4 信贷买卖信息明细 3 3 13 5 非信贷买卖信息明细 1 1 2 6 公共信息明细 8 8 16 7 其他标示及声明信息 1 1 1 8 查询记载 1 1 1 注:关于数据块、信息单元更具体的信息请参阅《人民银行征信体系产品阐明_个人征信陈述》 其间,数据块是组成个人信誉陈述的同一类信息单元或事务上有紧密联络的几类信息单元,是构成个人信誉陈述的根本组件的调集。信息单元是组成数据块的根底元素。各数据块之间没有交集,一切数据块构成了个人信誉陈述的数据全集。 一般状况下一个数据块对应着一个信息单元,可是也存在着一个数据块对应着多个信息单元。单一对应联络的信息,多为静态信息(数据),一般描绘信息主体的天然特色,这类数据一般不会随时刻改变(比方天然人的出世时刻、出世地等);或许或许会随时刻改变,但在数据剖析时一般只选用其最新取值(比方天然人的学历、婚姻状况等)。见表2。 表2 个人根本信息数据块和信息单元 信息分类 数据块 信息单元 信息单元个数 个人根本信息 身份信息 身份信息单元 1 个人根本信息 婚姻信息 婚姻信息单元 1 个人根本信息 寓居信息 寓居信息单元 0…5 个人根本信息 作业信息 作业信息单元 0…5 而一对多(一个数据块对应多个信息单元)的对应联络,多为动态信息(数据),一般描绘信息主体前史上相似的行为(事情)发作(改变)状况。即信息会跟着时刻频频或阶段性发作改变,比方寓居信息,在不同的时刻点寓居地址、寓居状况均或许发作改变。因而,在征信陈述中寓居信息数据块对应最多5个寓居信息单元,当然也或许没有任何寓居地址信息。如表2、3所示。 表3 多个寓居信息单元组成一个数据块 注1:上述数据来自二代征信展现样本; 注2:若信息单元只要一条记载,则信息单元与数据块在内容上是等价的。 注3:依照征信陈述的安排结构,信息单元下级元素为信息段,信息段的下级元素为数据项,但寓居信息单元只要一个信息段,因而寓居信息单元的下级元素直接为数据项。 总结来看,在征信陈述中一个数据块描绘一个人某一方面的信息。比方,身份信息数据块、寓居信息数据块、假贷账户信息数据块。假如数据块是静态信息(数据),这时数据块和信息单元一对一;假如数据块所包含的信息是动态信息(数据),那么此数据块就或许对应多个信息单元,代表一类状况(行为、事务)的屡次发作。图1给出了各信息单元特色。 图1 信息单元分类 注:动态信息单元标明此信息单元是能够屡次重复呈现的,比方假贷账户数据块对应多个假贷账户信息单元 (二)信息单元、信息段与数据项 信息单元的组成分为两种状况,一是,信息单元直接由数据项/组合数据项组成,此刻信息单元下无信息段;二是,依据包含数据项杂乱程度不同,信息单元可由两个以上信息段组成,信息段再由数据项/组合数据项组成。24个信息单元下合计有50个信息段,268个单一数据项,33个组合数据项(包含83个组合数据项字段),如表4。信息段是一个已标识、命名和结构化的、在功能上彼此相关的数据项的调集,由不少于一个的数据项构成。 表4 信息单元、信息段与数据 前述寓居信息单元便是直接由4个单一数据项组成的信息单元,但更多的信息单元是由多个信息段组成的。以征信陈述的中心信息单元——假贷账户信息单元为例,其包含了9个信息段,61个单一数据项,6个组合数据项(19个组合数据项字段)。如表5所示。 表5 告贷账户信息单元结构 注:*代表可呈现恣意次 单一数据项是指用一组特色描绘界说、标识、表明和答应值的根底数据单元,不会重复呈现;组合数据项是指信息段或信息单元中可重复呈现的一组数据项,见表6。 表6 最近5年内前史体现信息段所含数据项 数据项称号 数据项特色 开始年月 单一数据项 截止年月 单一数据项 月数 单一数据项 前史体现信息 组合数据项,可重复呈现60次 这儿需求侧重阐明与变量衍生相关的三个留意点:一是,动态信息(单元)和静态信息(单元)的变量衍生办法有较大差异,请拜见后文关于变量衍生的描绘。二是,信息单元中的信息段或许不会一起呈现,以假贷账户信息单元为例,依据不同假贷账户的类型,信息单元中9个信息段或许不会一起呈现。比方,大额专项分期信息段,只会呈现在信誉卡事务相关的假贷账户信息单元。三是,信息段中的组合数据项会重复呈现。比方,假贷账户信息单元→最近5年内前史体现信息段,有3个单一数据项和一个组合数据数据项。其间,组合数据项即前史体现信息,记载了其对应的一笔信贷事务近5年各月体现信息,包含月份、还款状况、逾期(透支)总额三个字段。 二、人行二代个人征信变量衍生结构 在数据驱动的危险办理流程中,不管是战略仍是模型运用,现在的处理结构都是1个人(或1个样本,比方债项评级对应着一个欠据)对应一条记载信息。如图2所示。经过告贷人前史逾期违约的相关变量来猜测未来逾期违约的或许性。 图2 战略、模型数据运用结构 如前所述,在二代个人征信陈述中,既有静态信息(单条记载数据),比方根本身份信息,包含性别、出世日期、学历等信息,1个信息主体只存在一条根本信息;也有动态信息(多条记载数据),比方假贷买卖信息单元,包含账户类型、事务品种、告贷金额等信息。1个陈述主体或许存在非循环贷账户、循环贷账户、贷记卡账户等多个假贷账户,每个假贷信息单元反映一个假贷账户。这些动态信息,由所以多条数据记载,并不能直接运用于战略或模型的开发中,而需求将这些信息进行数据改换和聚合运算后,构成一条记载信息后,才干运用到战略或模型中。 因而,个人征信陈述变量衍生将触及两个阶段:阶段一,依照事务逻辑,将二代个人征信陈述数据解析成规范表(或规范模块),依照记载条数的不同分为静态信息规范表和动态信息规范表;阶段二,在规范表的根底上,针对规范表的数据项进行变量衍生和加工,既考虑事务逻辑,也考虑算法逻辑,尽或许多的掩盖各种衍生变量。 (一)个人征信陈述解析规范表(或规范模块) 1、 以信息单元为规范表 在二代个人征信陈述中,有8个信息单元(拜见表4)直接由数据项组成,能够直接解析为一个规范表作为后续变量衍生的根底。比方,“征信陈述查询记载”信息单元,直接由查询日期、查询安排类型、查询安排、查询原因4个数据项组成,而且查询记载信息触及多条记载,为动态信息规范表,如表7所示。 表7 征信查询记载示例 注1:上述数据来自二代征信展现样本 注2:表中的查询安排是由查询安排类型和查询安排两个根底字段组成 2、 以信息段为规范表 第二类规范表是信息单元中的信息段。比方,身份信息单元包含根本概略信息段和手机号码信息段(表8)。 表8 身份信息单元及其信息段示例 信息单元 信息段 单一数据项 组合数据项 组合数据项字段 身份信息单元 根本概略信息段 9 0 0 身份信息单元 手机号码信息段 1 1 2 其间,根本概略信息段由9个数据项组成(表9),可解析为一个规范表。根本信息段只触及单条记载信息,因而为静态信息规范表。 表9 根本概略信息段示例 3、 以组合数据项为规范表 第三类规范表是信息段中的组合数据项。在二代个人征信陈述中,大部分数据项为单一数据项,可是也有少部分为组合数据项,即可重复呈现的一组数据项。这儿依然以身份信息单元为例阐明,在身份信息单元中,手机号码信息段(拜见表8)包含1个组合数据项,其间有手机号码和信息更新日期两个组合数据字段。这儿咱们能够将手机号码信息段中的组合数据项解析为一个规范表,因为触及多条数据,因而这是一个动态信息规范表。(拜见表10) 表10 手机号码信息段组合数据项 (二)个人征信陈述变量衍生和加工结构 变量衍生是最大极限地从原始数据中提取特征,发现或许对决议计划方针有明显作用的特征,以供算法和模型运用。变量衍生混合专业范畴常识、客观直觉和算法逻辑,依据原始数据衍生出更多的变量,可更精密的描绘方针的特色或行为。这儿咱们先解说通用的变量衍生根本逻辑,然后在此根底上阐明怎么对二代个人征信陈述中的静态信息规范表和动态信息规范表进行变量衍生。 1、 变量衍生根本逻辑 变量分类 变量特色分类 在做变量衍生之前,咱们需求对变量做出清晰的分类,这样有助于后边咱们针对不同类型的变量进行不同的加工。一般的描绘一个人(或更一般的实体)特征的变量,依据变量特色不同,能够笼统为“时、空、类、数、实体标识、联络”等6个类别。具体意义请见下表。 表11 变量类型及其扼要阐明 变量类型 类型阐明 时刻变量 描绘处于某种状况或行为特征发作的时刻,比方2019年12月1日已婚,2020年2月1日,请求一笔告贷。 空间变量 描绘处于某种状况或行为特征发作的空间,比方,在北京购买一套住宅一套,社保交纳地在北京。 类别变量 描绘事物或行为类别的一个称号,常见的类别变量有性别、婚姻状况、账户类型、账户状况等等。 数值(接连型)变量 描绘某种状况的刻度值或许行为特征发作的相关数值;比方,年纪32岁;请求告贷金额5000元。 实体(标识) 状况或行为特征的主体标识。比方,描绘天然人的身份证号码、法人的一致社会信誉代码;或许某种物体的仅有标识,比方MAC地址、银行卡卡号、手机号码等。 联络变量 描绘实体之间联络的变量。比方,告贷人与担保人之间的联络;天然人与手机号码的联络。联络变量,一般在杂乱网络剖析的结构下进行,限于篇幅,本文的衍生变量对此类变量不做评论。 表12 依照变量类型对告贷人行为进行结构化 变量类型 变量 取值 时刻变量 请求日期 2020年2月5日 空间变量 请求地 北京 类别变量 账户类型 非循环告贷 类别变量 担保类型 无担保/信誉 数值(接连型)变量 告贷金额 5000元 实体(标识) 身份证号 注:告贷人甲与担保人乙之间的担保联络的剖析,需求在杂乱网络的结构下剖析,不在本文评论范围内。 因而,不管告贷人的行为有多杂乱,终究咱们都能将其拆解为上述6类变量。后边咱们将看到,这种处理办法有助于选用规范化的办法处理变量衍生。 静态数据与动态数据 除评论不同变量分类外,在进行变量衍生前,咱们还要区别描绘告贷人行为的静态数据(与前述静态信息规范表相对应)和动态数据(与前述动态信息规范表相对应)。前文已有静态数据和动态数据界说,此处不再赘述。 变量衍生 依照静态数据(静态信息规范表)和动态数据(动态信息规范表)的不同,变量衍生处理会有不同的办法,而变量衍生处理更首要针对的是动态数据,经过对动态数据加工处理,将多条数据变成单条数据。 静态(单条)数据衍生 静态数据一般均能够直接作为战略或模型输入,可是实践中为了进步变量的区别度,也常常对静态数据做简略的加工处理,常见的衍生逻辑如表13所示。 表13 静态数据变量衍生 变量衍生 示列 类别变量减缩 学历:原始变量:小学、初中、高中、大学本科、研究生、博士研究生;减缩:高中及以下、大学本科、研究生以上 数值变量分箱 年纪:原始变量:18~60的接连变量分箱:18~25,26~35,36~45,46以上 数值变量和类别变量穿插衍生 比方,年纪和婚姻状况的穿插18~25,未婚;18~25,已婚;18~25,离婚;26~35,未婚;26~35,已婚;26~35,离婚;…… 两个类别变量穿插衍生 比方,性别与婚姻穿插男性,未婚;男性,已婚;男性,离婚;女人,未婚;女人,已婚;女人,离婚; 注1:三个以上类别变量也能够进行穿插衍生,以此类推; 注2:一个数值变量和两个类别变量也能够进行穿插衍生,以此类推。 动态(多条)数据衍生 动态(多条)数据的衍生首要逻辑是核算在指定周期内各类行为或事情发作的次数或金额,其间类别变量、数值变量都能够用来对各类行为进行更详尽的区别。 表14 告贷请求记载 请求日期 实体标识 事务品种 请求告贷金额 2019年3月2日 轿车消费告贷 5000 2019年6月2日 消费告贷 2000 2019年8月2日 信誉卡 10000 2019年9月2日 住宅商业告贷 如表14,若以2019年9月5日为基准日(T),咱们能够更进一步核算最近一个月(T-30)消费告贷请求次数、消费告贷请求金额(重视每类告贷请求);咱们还能够更进一步核算最近一个月(T-30)告贷请求金额在5千元以下的请求次数、请求金额(重视小额告贷请求状况)等等。更一般的,咱们能够对动态(多条)数据进行如下的变量衍生: 针对(实体标识,时刻)二元组,核算指定周期内事情发作次数,比方依据(客户ID,信誉卡发卡时刻),衍生指定周期内信誉卡发放张数。还能够核算指定周期内事情发作的时刻距离,比方依据(手机号码,信息更新时刻),能够核算近一年手机号码均匀多长时刻更新一次。 针对(客户ID,时刻,数值变量)三元组,进行指定周期内的数值核算,比方,(客户ID,告贷发放时刻,授信额度),核算指定周期内(最近1个月内),客户总授信额度,均匀授信额度,最大授信额度,最小授信额度。 针对(客户ID,时刻,类别变量,数值变量)四元组,指定周期内依照类别变量核算不同类别的数值变量的状况,比方,(客户ID,发放时刻,告贷品种,授信额度),核算指定周期内各类告贷的授信总额、最大值、最小值、方差、极差。 …… 2、人行二代征信变量衍生 在二代个人征信陈述数据中,首要咱们依照事务逻辑、变量特色、动(静)态信息等将原始数据解析为不同的静态信息规范表、动态信息规范表,能够称之为规范表。在规范表的根底上,就能够依照前述变量衍生逻辑一致进行变量加工。 1)单条数据信息单元、静态信息规范表及变量衍生 陈述头信息单元等8个信息单元为单条数据的信息单元,能够解析为静态信息规范表。依据静态信息规范表,咱们即可依照前述变量衍生逻辑进行变量衍生。 2)多条数据信息单元、动态信息规范表及变量衍生 征信陈述中的大部分信息单元包含多条记载信息,均须解析为动态信息规范表,其间比较常用的包含假贷账户信息单元、授信协议信息单元(二代新增)、查询记载明细信息单元以及后付费事务信息单元等(拜见图1信息单元分类)。 这儿咱们以假贷买卖信息单元中的授信协议信息段为例阐明怎么对动态信息规范表进行变量衍生。理论上授信协议信息段能够有无量多笔授信记载,这儿为了阐明衍生变量的思路,咱们仅以两条授信协议为例,见表15。 表15 授信协议信息示例 首要,对授信协议中各数据项进行类别标识,能够获得3个实体标识变量,3个类别变量,2个时刻变量,3个数据值变量,如表16所示。 表16 授信协议信息数据解析 数据项称号 变量特色 记载1 记载2 事务办理安排类型 类别 商业银行 商业银行 事务办理安排 实体标识 SS AQ 授信协议标识 实体标识 H121 TH 授信额度用处 类别 循环告贷额度 信誉卡同享额度 授信额度 数值 40,000 70,000 币种 类别 美元 美元 收效日期 时刻 2014.09.01 2012.02.01 到期日期 时刻 2019.01.31 2019.01.31 已用额度 数值 20,000 40,000 授信限额 数值 100,000 100,000 授信限额编号 实体标识 M100 W541 依据前述的动态数据表衍生逻辑,咱们能够将表中数据项解析为规范数据元组:(实体标识,时刻)、(实体标识,数值变量)、(实体标识,类别变量)、(实体标识,时刻,数值变量)、(实体标识,时刻,类别变量)、(实体标识,类别变量,数值变量)、(实体标识,时刻,类别变量,数值变量)……,然后依据规范的数据元组进行变量衍生。 3)组合数据项、动态信息规范表及变量衍生 征信陈述中的组合数据项也需求解析为动态信息规范表,其间比较重要的组合数据项均包含在假贷账户信息单元,首要有最近5年前史体现信息、大额专项分期信息(二代新增)、特别买卖信息、特别事情阐明信息等。将组合数据项解析为动态信息规范表后,就能够依照动态信息规范表的结构做变量衍生处理,这儿不再赘述。 三、 依据FeatureSmart??的人行征信衍生变量落地 在征信衍生目标落地方面,首要需求区别线上运用场景和离线开发场景。线上场景一般依据一份征信陈述,核算变量衍生;离线场景一般依据多份征信陈述,核算衍生变量。两者的首要不同在于:线上场景变量衍生一般用于战略和模型布置,离线场景一般用于战略和模型的开发。因而,线上场景不适用批量衍生变量,一般要对单一目标定制化开发,而离线场景则更适合批量变量衍生。 其次,依照变量衍生逻辑,能够拆分(查询日期),(查询日期,查询安排类型),(查询日期,查询原因),(查询日期,查询安排),(查询日期,查询安排类型,查询原因)等元组,依据上述数据元组,假定咱们批量衍生了200个变量,但线上场景则战略和模型终究选用的变量或许只要“最近3个月信誉卡批阅查询次数”一个目标,那么此刻咱们只需求针对此目标进行开发布置即可。 这儿咱们就不得不说到同盾科技最近推出的 规范化变量衍生东西FeatureSmart??,从进步变量布置阶段的质量和功率动身, FeatureSmart??能够完结战略和模型布置阶段的作业规范化、可视化,事务人员不用依靠IT人员就能轻松的完结人行个人征信等变量衍生作业,包含报文解析、衍生逻辑规划(模板办理)、乃至目标加工(目标办理)等。如图4所示。 图4 FearureSmart??线上场景变量衍生装备示列 除使用 规范化变量衍生东西FeatureSmart??外,在离线开发阶段,主张将人行征信变量衍生程序规范化,并针对衍生变量树立衍生变量数据仓库,以便一致各事务条线对人行征信变量衍生的程序,确保每个产品线所运用的人行征信衍生变量的一致性,这样更有利于剖析不同变量在不同场景、产品、客群下的区别度,也为开发新的变量供给线索。 四、人行二代个人征信运用 比较于一代个人征信,二代个人征信供给了更丰厚的行为数据,更具体的信贷产品分类。因而,咱们以为二代个人征信在更多的场景将发生更高的价值。比方,依据更具体的信贷产品分类,咱们或许将此信息运用到穿插出售范畴,针对客户持有非循环贷产品、循环贷产品、信誉卡产品的状况,进行更有用的穿插营销推行;依据授信协议的有用期间,能够剖析客户未来资金需求时刻,进而对客户进行更好的精准营销。在危险办理范畴,曩昔个人征信或许更多的运用在请求评分,可是因为有了5年的还款记载、逾期金额,咱们能够将个人征信信息更多的用来进步行为评分模型、催收评分模型的建模作用。以上都有待于咱们去开掘。 图5 二代个人征信运用场景 读者们假如想更进一步了解二代个人征信变量衍生及落地、模型优化和运用场景,欢迎联络同盾咨询团队, Consulting@tongdun.net。 作者简介: 姚雪丹 同盾咨询高档专家 (曾在我国人民银行任职11年)

发表评论

电子邮件地址不会被公开。 必填项已用*标注