作者:曾洪勇 职位:高级数据科学家
模型设计的技巧
模型设计是开发申请评分卡(Application score card,亦常称为A卡)中最关键也是难度最高的步骤,这个模型设计的过程不仅仅只是技术领域如何建模的问题,还需要融合对金融信贷业务的深入见解,因此,在申请评分卡的模型设计中,如何更好把评分模型与实际信贷审批业务相结合,是一个值得深度思考的重要问题。
信用卡业务申请评分卡模型设计的关键步骤包括目标定义、样本选取、客群分类。
1、目标定义
在申请评分卡模型中,通常“逾期”的定义是模型需要学习的目标,包括逾期天数、逾期期数和逾期金额等。“贷款状态”,如最终是否还款、是否核销等也在一些模型中被用于定义。一般而言,模型好坏样本的最终定义,均需要结合数据分析、业务实际以及管理策略来综合确定。
2、样本选取
在授信环节,样本观察点一般选择授信时点,样本观察期为观察点之前的N个月,需要在此窗口期内根据在观察时点采集的数据来构造自变量X。表现期是样本在观察点之后的未来时间里,表现成“好样本”“坏样本”还是“灰度样本”的时间窗口。一般而言,在数据充足的情况下,表现期需要有足够的长度,能使样本的逾期行为充分的表现出来,对于信用卡产品而言,建议表现期可设置为6~18个月。
模型样本的选取,不仅需要具有整体代表性,还必须具有准确的预测信息或表现信息,剔除样本的规则设定非常重要,在信用卡业务申请评分卡模型的设计中,常见样本剔除规则包括:
1)欺诈样本,此样本不属于信用风险范畴;
2)政策拒绝样本,此样本不经由申请评分模型管理;
3)重复或未完成申请,此样本无最终决策;
4)学生群体样本,此样本为特殊类别人群,不使用申请评分模型管理;
5)年龄小于18岁或者大于65岁的人群,此样本为一般政策上非信用卡准入人群;
6)表现期有争议,此类样本代表申请人行为表现可能无法反映贷款人的真实行为;
7)未激活账户,此类样本一般无表现行为;
8)其他可剔除的特殊产品或特色渠道。
3、客群分析
客群分析的目的是把行为模式相同或类似的样本分为一组,把行为模式不同的样本分进不同的组,并使得以此为基础建立的一组评分模型可使得整个评分系统的预测能力最大化。
客群分析的方法一般是业务经验和数据分析的综合结果。从业务经验角度来说,通常备选的分组可能包括:“产品类型”“历史是否逾期”“账龄”“客户年龄/职业/收入”“额度使用率”等。在实践中,通过经验和数据分析,可能还会找到更多分组,但并非所有这些分组都需要单独开发评分模型。这种情况下,利用主模型与子模型方式进行评估选取是常见办法:首先,针对整个客户群体建立主评分模型;接着,找出所有的潜在分组,并评估主评分模型在各个分组的有效性。 只有当针对客群分组的子评分模型的表现明显优于主评分模型时,才能证明针对单独细分的评分模型更合理,此时才能相应地为每个潜在的分组建立“子评分模型”之上,并评估其表现的改进程度。