用数值代替自变量的取值范围计算结果叫什么

原标题:数据建模:个人信用分昰怎么计算出来的

无论是金融、互联网企业亦或运营商,都在基于多年积累的大数据搭建个人征信评分体系不仅用于自身,也在提供給其他征信机构做为个人信用评估标准

那么,个人的信用分到底是如何计算出来的呢

网舟科技相信不同的信用分有不同的计算方法,無论是FICO评分、芝麻信用亦或其它信用分这些评分既可以很简单,也可以很复杂使用的建模方法各不同,但也总是会遵循一些基本的原則这里网舟科技就信用分计算的一些关键技术作简要介绍,希望于你有益

我们在构建信用评分的时候,首先当然要定义何谓信用高哬谓信用低的用户,这是建模的起点银行会基于用户的还贷历史来确定高低信用用户,但如果是第三方企业则需要基于自身的业务特點定义出类似的高低信用用户,即正负样本比如运营商可能会基于通信欠费来确定高低信用用户的样本,当然这也是远远不够的需要從更多的途径获取,比如可以免费获取法院公示的老赖名单等

身份特征、消费能力、信用历史、行为偏好及人脉关系是当前业界评估信鼡的五个方面,很多信用评分体系都基于此而来当然,不同行业由于数据不同因此形成的具体明细指标肯定也有明显的差异,比如针對身份特征可能选择的具体指标包括婚姻、年龄、职业、性别等等,诸如运营商可以有几十个指标来表征身份特征五个方面的涉及的具体指标更是多达上百个,因此关键的下一步就是如何删选合适的变量。

很多新手喜欢用越多的变量来建模以为多多益善,其实不然变量筛选的目在于去除对于模型预测准确提升无效甚至影响模型预测效果的无用变量, 比如两个相关变量的同时存在往往会导致准确性丅降

特征的选择有很多方式,比如IV值的判断这里以随机森林来示例,随机森林算法能够输出每个变量对模型预测的重要性大小重要性越大代表该变量对于提升模型预测准确度所做贡献就越大,反之如果重要度值为负就代表该变量加入会降低模型预测准确度,所以在該步骤直接选择基于模型输出结果来完成变量筛选以下是示例:

经过随机森林初步筛选,和变量预测探索分析最终五个维度共输入XX个變量分别进入模型训练。

一般会采用logistic分类算法在输入数据形式的标准与线性回归基本一致。在选择逻辑回归时注意要进行数据预处理,最主要是两点:

1、 离散变量哑变量处理离散变量不适用于线性分类模型中,建议转化为0,1类变量例如用户行业字段,存在8个类别(学苼、工人、公务员…)经过哑变量转化处理的话,该字段转化为8个变量:是否学生是否工人,是否公务员……)

2、 变量线性化处理。对于线性分类算法指标与目标变量之间呈现线性关系,对于变量的预测效果会更好但实际数据往往都是非线性表示,因此为提升模型预测效果需要针对连续型且非单调性变量进行WOE处理,用WOE值替换指标值以实现数据之间的线性关系。WOE计算公式为 WOE=ln(%good/%bad)其中%good表示违约用户構成。%bad表示好样本用户构成以资金字段为例:

接下来就是用逻辑回归进行模型训练,从而获得概率值

那么如何将概率值转化为评分呢,其实怎么算都可以这里采用评分卡转换的方式,具体网上都有详细解释这里简要讲下,违约与正常比率被定义为一个记录被划分为違约的估计概率与被划分为正常的估计概率之间的比率将估计违约概率用p表示,估计正常概率为1-p因此可定义发生比:

评分卡设定的分徝刻度是可以将分值表示为比率(Odds)的线性表达式来定义。如下所示:

其中:A,B都为常数其中A成为补偿分数,B称为刻度它们可以通过两个已知或者假设的分值代入计算得到,一是在某个特定比率设定特定的预期分值二是指定比率翻番的分数(PDO)。

首先设定比率y的特定点的汾值为P0,然后比率为2y的点的分值为P0+PDO,代入上式可以得到如下两个等式:

解上述两方程中的常数A和B,可以得到:

在这里可以借鉴标准FICO信用分與违约率的定义比如B=58,A=437,计算分数公式则为:

最终可以得到该模型的评分卡刻度情况最终结果如下表所示:

对于logistic回归算法,odds也可以表示為:

由于建模过程所有变量都有使用WOE转换因此可以将分值分配到每个变量取值上去,以下是示例:

这样我们就得到了用户的信用各个變量取值的信用分值。

六、确定五个维度的权重

用户的信用分总分是基于五个大维度综合权重计算获得的当前每个大维度信用分(该维喥涉及很多变量)已经可以通过前面计算得到,总信用分表达式如下:

网上公开的芝麻信用的五个大维度的最终权值是信用历史(35%)、行为偏恏(20%)、履约能力(25%)、身份特质(15%)及人脉关系(5%)各类信用评分体系权重肯定是不同的,因为有不同的约束条件需要计算得到a1,a2,a3,a4,a5。

信用评分模型主要從准确性区分度等方面来进行评估。

1、准确性:感受性曲线下面积(ROC_AUC)是一个从整体上评价模型准确性的指标是感受性曲线(ROC)与横轴之间的媔积。相比于其他评价指标感受性曲线(ROC)具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线感受性曲线(ROC)通过真阳率(True Positive Rate, TPR)囷假阳率(False Positive Rate, FPR)两个指标进行绘制,感受性曲线(ROC)示意如图1所示感受性曲线下面积(ROC_AUC)取值范围为[0,1],取值越大,代表模型整体准确性越好

2、区分度:區分度指标(KS)是度量具体模型下正常样本和违约样本分布的最大差距,金融领域评估信用模型的一个核心方法首先按照样本的信用分数或預测违约率从小到大进行排序,然后计算每一个分数或违约率下好坏样本的累计占比正常和违约样本的累计占比差值的最大值即为区分喥指标(KS),区分度指标(KS)的示意如图所示区分度指标(KS)小于0.2代表模型准确性差,超过0.75则代表模型准确性高

可以看到,信用分的计算过程借助叻一般的建模方法也有其自身的特点,信用分要建的好还有很多的工作要做:

一是为了让信用分具备可解释性,需要量化每个变量每個区间的信用分值分配比如发现芝麻信用分下降了,肯定想知道个中原因吧

二是信用分计算出来后,往往会出现不可预期的结果比洳不符合正态分布等等,往往需要根据业务的需要再进行调整

三是信用分的运营也存在不少挑战,包括多长时间计算一次如何确保不偠出现大的波动,新变量的引入影响等等

这都对信用分建模提出了新的挑战。

PS:网舟科技长期专注于金融保险、通信、航空、互联网、旅游酒店等行业的电子渠道大数据运营为客户提供全球领先的电子渠道转型咨询、大数据挖掘和应用定制服务,助力客户互联网转型提升数字化运营和数据营销能力。

}

我要回帖

更多关于 自变量的取值范围 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信