可以增加单列,并赋值,如果想同时对多列进行赋值
先前的例子,用如下的方法就行了
如果'月份','企业'列存在,用如下也可,上例中,直接可以创建不存在的列。
今天又遇到一个从某列截取字符串长度写到另一列的,也一并写到这里:
货品列在原表中无,取货品代码的前12位。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
自动驾驶、智能家居、语音助手、人脸识别、无人汽车、购物推荐、机器人等人工智能不知不觉已经在我们身边不断成为我们逐步习惯的生活一部分,机器学习算法正是实现人工智能的重要工具,如何利用机器学习算法挖掘大数据中储藏的价值依然成为各行各业关乎企业未来的核心竞争力,在泛金融领域内的保险板块,近年来保险科技一直在从保险发展的痛点出发,探索机器学习算法赋能业务发展,不乏很多成功的金融科技案例,比如精准营销推荐、智能核保、保险反欺诈等,在精算生态圈中也在不推探索新技术对传统技术的推陈出新,本文基于相关研究运用机器学习算法,对物联网下的保险大数据进行保险产品风险区分,可以较好的帮助进行分类费率的厘定。
机器学习旨在研究如何通过计算机手段,利用经验(数据)来改善系统自身的性能(模型算法),让计算机能更具有人工智能,让产品更好的体现和适应这个世界。常用的基学习器算法有线性回归、逻辑回归、支持向量机、k均值聚类、密度聚类、贝叶斯分类器、协同过滤、决策树、神经网络等,结合集成学习方法可以实现大数据机器学习。
保险产品是保险经营的核心,风险量化区分又是产品设计的核心,通俗的说,就是根据对不同承保对象风险状况的评估进行科学精准的收取与其风险状况相匹配的保费。
三、机器学习提升保险风险区分能力
以基于UBI数据的汽车保险产品为例,通过机器学习比较传统模型提升车险风险区分能力,探索思路方法如下:
下文基于监督学习体系(有目标变量),采用历史赔款(或赔付率)数据作为目标变量,组织赔案对应保单车辆的驾驶人性别年龄等从人因子、车龄车系等从车因子、历史出险次数等奖惩因子、平均行驶时长里程等UBI动态数据,其中车联网的大数据不断大量积累,里面蕴含了丰富的标签因子可以解释量化风险。
按照经典机器学习的样本数据分组方法,将样本数据分为训练集、验证集和测试集,其中使用训练集来训练模型和估计参数等,使用验证集来验证模型和调优参数,以防止过拟合后预测效果较差等情况的发生,提高模型的泛化能力,使用测试集来检验所选模型对研究项目的性能如何,以及进行泛化结果的展示。常用经验的划分比例使用留出法随机抽取样本,如训练集占总样本的50%左右,而其它各占25%左右。
对于动辄上百个因子的车辆网大数据,传统的定价方法难以有效适应,至少在前期有效因子识别上无法做到满足许多经典分类定价方法的假设条件,这时提出使用机器学习算法则可以充分发挥其长处,通过实践表明对多因子进行处理的机器学习算法对风险识别能力有较好的提升度。在这里机器学习算法包括进行分类的基学习器模型和多模型融合的集成学习方法两部分。
tree的简称,一种著名的决策树学习算法)决策树模型作为机器学习的基学习器,其原理简单来说,假设我们简化为三个因子变量和一个目标变量,采用最小方差的方法来进行属性的最优特征选择,以及叶节点等参数的选择。比如对汽车电池类型属性有两类(纯电,混动)特征,对高峰行驶占比连续属性需要进行排序后取两两特征值的中位数分别作为划分点(25.5,28.0,30.5,32.5,34.5,37.0,42.5)进行特征选择,对于地区属性每次取其中一个离散值作为划分点,如(北京,其他)或(山西,其它)等。分别计算上述每个属性的每个分类对数据集拆分后的方差,然后选择最小方差作为当前划分的特征选择,通过计算划分前后的方差的大小或是否可继续拆分等来决定是否成为叶节点。
面对海量数据和特征,提升单个模型的效果已经是事倍功半,因此当前主流的做法是通过构建多个不同的模型进行集成学习,并将这些模型融合起来从而提高最终模型的效果,提高模型泛化能力。目前融合模型主要有两类:Bagging和Boosting。Bagging是并行运算,将原始数据分为n份,每份单独进行模型训练,并得到该数据集最优的基学习器。Boosting是串行运算,本次模型学习依赖于前一次模型结果,基于前一次模型结果更新预测偏差较大的样本权重,并重新学习。无论是Bagging,还是Boosting,最终模型是n个基学习器的加权综合,对于回归模型取各个基学习器的均值作为最终预测结果。
选取随机森林(RandomForest)作为其中一种机器学习评分方法。随机森林是基于Bagging思想所改进的算法,在样本和特征上都体现了随机性,每个子集都采用自助法(bootstrap)有放回的随机抽取样本和特征,构建基学习器(CART),采用此种方法能够降低所构建的不同的决策树的相关度,增强模型的泛化能力,并行运算效率高等。
选取Xgboost与GBDT作为另外两种机器学习评分方法。GBDT是基于Boosting的思想,基本原理是让样本的损失变得更小,即每次迭代是对上一次的损失进行学习,进而拟合一个CART回归树。优点是用更少的树个数与深度达到更好的效果。此外目前比较流行的 Xgboost框架与GBDT相比,对损失函数采用二阶泰勒展开进行优化,并且将树的复杂度和目标函数结合起来,此外在运算方面也做了很多优化,运算效率得到极大的提升。
首先使用赔付率区分倍数进行单因子一维分析,从示例因子结果来看汽车被保险人年龄单因子风险区分度最高为3.0倍。其中,赔付率区分倍数计算方法:按风险因子的值由小到大排序并等分10组后,区分倍数=第10组赔付率/第1组赔付率。
对汽车行驶省份进行分组查看满期赔付率的差异,假设示例数据可说明因子对风险差异的影响显著程度。
一种比较简单的评估模型表现的方法就是将实际目标变量和各个模型的预测目标变量画图,通常将预测目标变量按照从小到大排序,分为100份,计算每份中的实际平均值放在y轴,预测平均值放在x轴,进行作图,如果模型比较好,图形应该比较接近分布在对角线上。亦可以使用样本残差和模型残差进行QQ图比较。较为简单不再展开。
GBDT三种算法建模训练后应用于测试集,然后将测试集的风险评分从小到大排序并等分为10组,得到三种模型各自风险评分对赔付率区分能力。从赔付率区分倍数分析,使用模型的区分效果均好于单因子的区分效果,三种模型区分率倍数分别为XGBoost3.5倍,RF3.2倍,GBDT3.0倍(假设数据),从区分倍数以及曲线波动性两方面评价,XGBoost选为最终模型。
2.3差异比率分布比较法
对数据集分别采用XGBoost,RF, GBDT三种算法建模训练后应用于测试集,对模型结果和真实值分别做差异比率(模型值/真实值-1),按照差异比率大小排序分为十组(或百组),比较各组模型值与真实值的差异情况,以及对应的承保数量情况,从下图示例中可以看出模型1与真实值的差异更小一些。选定模型1为最终结果。
采用XGBoost算法建模后,将测试集建模后的风险评分从小到大排序并等分为10组,得到风险评分对赔付率区分能力如绿线所示,可以看出随着高风险分组的递增,实际赔付率也呈现了递增趋势,说明测试集展示的模型训练效果还是很好的,再将对应分组下使用传统模型进行预估的赔付率用黄色线来对比,可以看到在低风险组中,传统评分对部分保单高估了实际风险,在高风险组中,传统评分对部分保单低估了实际风险,而新的评分可以起到一个风险细分的提升作用。
比对模型提升度图的作图步骤为,第一对每个记录计算新模型预测值和原模型预测值的比率;第二步,将此比率按照从小到大排序;第三步,将排序好的比率分为十等份;第四步,分别计算在每个分组下,新模型的预测平均值,原模型的预测平均值,以及实际值的平均值;第五步,将上面计算三个数据画曲线。模型解读为,在每个分类中跟实际值最吻合的为模型提升度比较好,尤其在第一组为新模型相对原模型认为纯保费最低的组,最后一组为新模型相对原模型认为纯保费最高的组,在这里可以看出,在这两组中新模型更切合实际值,相对原模型,风险区分度提升效果更好。
对新模型评分和原模型评分放入二维表中可以更直观看出风险细分的提升,将样本按照原评分分为十组,同时按照新评分分为十组,两两交叉后统计每个格子的实际赔付率和承保数量,图表上部为实际赔付率展示,下部为相对应的保单数量展示,从右上角的部分可以看出,对于原评分低风险组中,存在实际赔付率比较高的样本,从左下角可以看出对于原评分风险比较高的组,也存在实际赔付率比较低的样本,通过新风险评分可以起到风险细分提升的作用。
3.4基尼系数提升效果
基尼系数也常用来在保费费率中使用,第一步,对模型预测值按照从小到大排序,在前面的为优质低风险业务,在后面的劣质高风险业务;第二步,对上面排序好的风险暴露累计百分比作为x轴;第三步,对x轴对应的损失值累计百分比作为y轴,作图。计算洛伦兹曲线与45度线之间的面积,2倍此面积为基尼系数,基尼系数越大说明模型区分优质和劣质业务的能力越强,如果基尼系数为零,说明低风险和高风险业务同样风险暴露数量的赔付一样,即风险风险区分能力不好。下图可见新模型区分能力更好一些。
四、分类费率定价进一步应用
通过机器学习模型可以从成百上千的大数据影响因素中挑选出影响显著程度较高,累计能解释信息量n%以上的m个因子,再结合GLM模型,进行分类费率系数的计算,可进一步应用于产品的分类费率厘定。
综上,通过机器学习对大数据处理的固有优势,可输出费率参考、风险评价等结果,为保险公司在风险成本定价,创新产品开发,核保业务风险识别与资源配置,理赔业务反欺诈成本控制,多维度用户画像增值服务等方面提供价值赋能。本文所用图表数据为模拟假设数据,方法思路参考了《机器学习》、《机器学习算法保险场景应用》等相关参考文献,以及作者自身团队过往已公开发表的相关研究成果。
最后,本汽车保险风险分类区分方法可以拓展应用到其他保险类型,如家财险,健康险等,也可通过选择适合的基学习器拓展应用到银行业信贷信用水平评价、基金绩效水平评价、互联网客户群体细分等大数据渗透率比较高的场景,真正挖掘数据时代的价值。
当中秋遇上国庆,当家睦与国安同在,当花好陪伴月圆。祝福大家中(秋)国(庆)节节日快乐,幸福安康,吉祥如意!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。