机器学习论文范文第三篇:一种机器学习的信贷风险检测模型建立
摘要:基于某信贷机构历史业务原始数据,经过数据预处理后,分别建立决策树、逻辑斯蒂、BP神经网络和随机森林预测模型,得到的准确率不超过90%.再对原始数据进行特征分箱后,通过XGBoost算法建立模型,准确率提高为91.2%.最后,基于Cook距离的多元模型检测到的离群点与逾期客户有显著关系,模型准确率为96.7%,召回率为99.3%.
关键词:逾期检测;特征分箱;机器学习; Cook距离;
作者简介:侯浩鑫(1997-),男,广东揭阳人,本科,研究方向为应用统计学大数据方向。;*赵志红(1980-),女,山西运城人,硕士,副教授,研究方向为应用统计学、计算数学、模糊数学。;
基金:北京理工大学珠海学院科研发展基金项目(编号:XJZ-2019-02);
1 引言
随着互联网金融行业的兴起,银行和贷款机构通过互联网为有贷款需求的客户提供线上金融服务。在带来更好服务体验的同时,也存在着诸多信用风险问题,急需建立信贷风险检测模型提高风控水平。根据信贷客户还款的具体情况,将客户分为正常和逾期两种类型。以三个月的时间作为观察窗口,还款连续逾期三个月的,判定为逾期客户;其余正常还款情况的,为正常客户。通过采用机器学习和统计方法得出的信用检测模型,能够较为准确地预测个人未来的信用表现,估计每笔信贷是否逾期,方便银行提前预知可能存在的风险。
2 数据预处理
分析来自某贷款机构的历史业务数据,包含贷款基本表、报告主表、贷款记录、贷记卡记录、信用提示、未销户贷记卡和未结清贷款信息汇总、逾期信息汇总、查询记录汇总、信贷审批查询记录明细、贷款特殊交易、透支记录、诈骗记录等12个数据集,涉及3万名客户和100多个特征,数据预处理较复杂,需尽量减少信息损失。
为了获得更好的训练数据特征,通过特征工程将原始数据转换成模型训练数据,使得机器学习模型逼近这个上限,提高模型性能。主要运用了特征构建和特征选择。例如针对"数据集:信贷审批查询记录明细表",利用日期函数计算查询间隔月份数,通过总查询次数除以查询间隔月份数构建出新属性"月查询次数".
例如针对"数据集:贷款记录",由ID将贷款状态拆分成"呆账、结清和正常"三类属性的数据。最终从100多个指标中初步构建了42个特征。接着,利用R语言"informationvalue"函数计算各定性指标的IV值,选择有高预测性能的前两个显著特征"工资"和"教育";再通过广义交叉验证法得到10个显著性指标,主要包括信用状况、偿还历史和逾期行为3个维度的指标,结合Boruta算法得出变量对逾期状态影响的显著性,根据变量间相关性图和现实意义,筛选出"信用使用年限"和"贷款账户数";最终,经过定性指标和定量指标的筛选,从42个初选特征中选择了重要程度前14的特征。特征选择结果如表1所示。
表1 特征选择结果
处理完缺失值后,采用无放回随机抽样方式,将总体以7∶3的比例拆分成训练集和测试集,数据基本情况如表2所示。
表2 训练集和测试集数据概况
3 初步建立逾期检测模型
分别通过"gbm"函数建立决策树逾期检测模型(GBDT)、"glm"函数建立逻辑斯蒂回归模型,并通过逐步回归剔除非显著变量、"nnet"包所得BP神经网络模型、"random Forest"函数建立随机森林逾期检测模型,结果如表3所示。
表3 四种模型结果对比
四种模型的AUC值均低于0.8,预测准确性不是很高,离想要检测逾期客户的目标还有一定差距。其中表现较好的模型为逻辑斯蒂和BP神经网络,AUC值为0.71.
4 特征分箱
通过特征分箱离散化连续变量,同时将离散变量合并成少状态。经特征分箱后的数据,具有更易于模型快速迭代和降低模型过拟合风险等优势。 基于"smbinning"包对各特征进行最优分段,通过分段结果对数据进行封闭性分箱和转换,如特征"信用使用年限"的分段结果如表4所示。
表4"信用使用年限"分段结果
5 逾期检测模型探索和优化
5.1 基于XGBoost的集成学习模型
前面几种机器学习模型的预测精度相对不高,尝试基于XGBoost算法的集成学习模型以提高预测模型的精度。同时,将分别对原数据和特征分箱变换后的数据进行预测,以观察特征分箱是否提升了模型的表达能力和拟合度。XGBoost模型结果如表5所示。
通过R语言"xgboost"函数建立模型,经参数调试后对原数据进行预测,得到预测准确率为84.5%,召回率为37%,AUC值为0.72.
对特征分箱后数据进行预测,预测准确率为91.2%,召回率为52.7%,AUC值为0.82.
表5 XGBoost模型结果
将"xgboost"函数的目标设为逻辑斯蒂模型,由于逻辑斯蒂为广义线性模型,表达能力有限,而特征分箱后每个变量有了权重,即引入了非线性到模型中,显著提升了模型的表达能力和拟合效果。
5.2 基于Coo K距离的多元模型
通过统计学方法分析得到离群点,观察离群点与逾期客户是否有显著的关系。一般如果观测样本的Cook距离比平均距离大4倍,则该数据点被判定为离群点。通过Cook平均距离的4和24倍分别进行离群值检测,其中显著离群点和全部离群点如图1所示。
图1 异常值检测
经匹配样本号发现,基于Cook距离的多元模型检测法所得出的离群点基本为逾期客户,该模型表现出了较高的检测准确率和召回率。当Cook距离为4倍时,99.3%的逾期客户被检测出来,而此时模型的准确率仍非常高,为96.7%.具体如表6所示。
表6 基于Cook距离的多元模型
6 结论
进行分析的目的是检测出可能存在逾期行为的客户,基于这个业务背景,主要从模型的准确率、召回率和AUC值来评价模型的优劣。
四种机器学习模型的AUC值均低于0.8,预测准确性不是很高。模型优化上,通过XGBoost集成学习模型对原数据和分箱后数据分别建立模型,AUC分别提高到0.72和0.82,说明集成学习模型和特征分箱均有优势,且经特征分箱后的XGBoost模型预测准确率达到91.2%,召回率达到51.7%,模型有很好的预测效果。
模型探索上,由于逾期客户均在数据的某些特征取值上较为极端,故通过统计学方法,基于Cook距离的多元模型检测出来的离群点,与逾期客户有着显著的关系。当Cook距离为4倍时,99.3%的逾期客户被检测出来,而此时模型的准确率仍非常高,为96.7%,该模型表现出了非常高的分类效果。
参考文献
[1]中国人民征信中心。个人征信系统新版信用报告概述[DB/OL].[2021-04-15/_ttps://www.renrendoc com/paper/94313836. html.
[2]高祖康基于数据挖掘的商业银行贷款信用评级[D].南京:南京理工大学, 2013.
[3]何晓群。多元统计分析[M].4版。北京:中国人民大学出版社, 2004.
[4]董媛香,程盘大数据背景下个人信用评价体系构建[J].现代工业经济和信息化, 2017.7(5):106-108.
[5]石澄贤,陈雪交P2P网贷个人信用评价指标体系的构建[J]常州大学学报(社会科学版) , 2016,17(1):80-85.
[6]李佳网络银行个人客户信用风险评价研究[J].中国市场, 2016(14):91-92.
[7]刘扬,刘伟江。特征选择方法在信用评估指标选取中的应用[J]数理统计与管理, 2006(6):667-674.
[8]张道宏,张璇,尹成果基于BP神经网络的个人信用评估模型[J]情报杂志, 2006,25(3):68-70.
[9]张国政,陈维煌,刘呈辉基于logistic模型的商业银行个人消费信贷风险评估研究[J]金融理论与实践, 2015(3):53-57.
广义上的金融工程不仅为银行面临市场、信用等风险的企业贷款工作提供新的测量工具,其在金融科技的应用更为缓解小微公司融资压力提供了有效的传导路径。...
重点阐述了如何利用决策树和神经网络筛选奶牛疾病风险因子、预测疾病和疾病分类。同时,综述了机器学习预测代谢性疾病、跛行、乳房炎、热应激和传染性疾病的进展。...
近年来随着生物医学研究的发展,对于脑卒中的研究日益深入,在基于"组学"数据[8,9]、实时风险预测等方面的研究对统计学工具的要求不断提高。...
本文所提的两种方法在入侵检测任务中呈现出更高的准确性,与原始自编码器相比提高了8.1%....