计算机应用技术论文

您当前的位置:学术堂 > 计算机论文 > 计算机应用技术论文 >

数据挖掘论文3000字范文参考(3)

来源:学术堂 作者:周老师
发布于:2016-12-27 共15078字
数据挖掘论文三:

《数据挖掘在花呗审计上的应用》

  摘 要:随着电子商务的发展,网上支付方式也在发生着变化。互联网消费金融是以信息化手段进行消费的信用形式,是“互联网 +”浪潮下的新兴市场 , 其优势在于利用互联网平台进行快速业务处理和数据分析,大大提升了消费金融的效率。互联网消费金融产品的电商模式正在崛起,有很多人使用花呗进行购买支付,但随之而来的信用风险也在增大,如何通过数据挖掘技术将风险降到最低,是当务之急需要做的。

  关键词:数据挖掘 决策树 互联网消费金融 花呗

  一、数据挖掘的概念

  数据挖掘是一个利用各种方法,从海量不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、对决策有用的信息和知识的过程。其表现形式为概念、规则、模式等形式。用统计分析和数据挖掘可解决一些商务问题(文中数据仅作举例用,不代表任何实际意义)。“海量”:样本量庞大、样本量不大但数据维度很高、样本量庞大且数据维度很高。特色:分布特征未知条件下的,高维非线性的,归纳型的分析方法。信息:用于数据的分类预测。模式:用于数据特征和关联性的刻画。

  二、互联网消费金融

  近两年我国互联网消费金融的迅速崛起,特别是电商巨头纷纷涉足该领域。京东于 2014 年 2 月推出互联网信用支付产品京东白条,阿里巴巴在 2014 年 6 月上线天猫分期购,于2014 年 12 月推出花呗,2015 年 4 月推出借呗,2015 年 5 月苏宁推出苏宁任性购等等,这些依托于电商的互联网消费金融市场掀起一股新的浪潮,电商消费金融将迎来高速发展时期。

  互联网消费金融的兴起与其特有的优势是分不开的。与传统消费金融相比,一般的消费信贷业务品种较小,并且多以住房贷款、汽车贷款和信用卡业务等,并且现有的传统贷款无担保、无抵押小额贷款,存在着规模小、手续繁琐、专业化程度低、效率不高等多方面的问题,导致了中国金融业供需之间的不匹配,正是这种消费金融现状的存在,使得这种新兴的行业发展有了可行性和必要性。

  三、决策树

  随着互联网消费金融产品(本文以花呗为例)在中国的蓬勃发展,对花呗进行审计不再是一种盲目的行为,这其中需要更多的使用数据挖掘技术对发放额度进行分析。决策树是用树形图来表示处理逻辑的一种方法,可以直观、清晰地表达业务的逻辑,它是一种辅助分析进行决策的特殊图形。决策树是一种预测性的模型,它代表的是对象值和对象属性的映射关系,通过之间的映射关系,对事物的属性进行判断,从而进行决策,这恰好是互联网消费金融产品进行审计最需要做到精确和准确的地方。

  决策树的每个叶节点的个数和树型的复杂度与算法剪枝有关。例如 CART 算法得到的决策树每个节点有两个分支,这种树又称为二叉树。如果允许决策树的分支多于两个,则称这种决策树为多叉树。每个分支不是一个新的决策节点,就是树的结尾,被称为叶子节点。在沿着决策树从上到下遍历的过程中,在每个节点都会设置一个判断问题,对每个节点上判断问题回答不同的答案导致不同的分支结果,利用几个变量来判断所属的类别。通常用信息增益率和 gini 系数作为节点分裂质量的指标。熵越小代表节点越纯,按照信息增益的定义,信息增益越大,熵的减小量也越大,节点就趋向于更纯。决策树的缺点:决策树的最大缺点是其原理的贪心算法。贪心算法总是做出当前看来最好的选择,却从不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。

  四、决策树在审计花呗发放额度上的应用

  在消费金融领域,风险控制一般都可分为贷前、贷中、贷后三个环节,欺诈识别和信用评估是至关重要的两点。互联网消费金融面临两大突出风险。一是操作风险,主要包括由于客户欺诈行为而带来的欺诈损失和信息系统操作失误、缺陷、攻击而带来的风险;二是信用风险,主要是因次级信用群体带来的直接损失。这就需要在发展互联网消费金融业务时更加注重风险控制,通过制定和设计更科学的风控政策和风险模型,建立强大的信用评分和决策系统、反欺诈系统以及催收管理系统,同时加强核心信息系统自主研发能力,加强系统安全监测和内控管理,实现风险能控、可控、易控。这两个风险可以通过大数据风控有效降低,进而挽回不必要的损失。本文主要从贷前贷款额度发放的角度进行审查。

  逾期天数 90 天以上且逾期金额 500 以上的用户,逾期金额和信用额度的相关系数为 0.60,说明逾期金额与信用额度有比较强的相关性,建议对花呗发放额度模型进行进一步的优化。

图 1图 1

表 1
表 1

  逾期 90 天以上的用户,使用花呗的金额是未开通花呗之前商城消费的 7.2 倍,未逾期的用户,使用花呗的金额是未开通花呗之前商城消费的 3.6 倍,从侧面反映了与未逾期用户相比,使用花呗拉动的消费,超过了逾期 90 天以上用户的消费能力,建议考虑适当降低这类用户的信用额度。

表 2
表 2

  90 天以上的逾期金额主要集中在信用额度 0-3000 和5001-8000 这两个区间,信用额度 0-3000 这个区间主要涉及一些新用户,花呗新激活用户时应判断与之前信用不良的用户是否是同一人,避免一人恶意多次激活花呗逾期不还;信用额度 5001-8000 这个区间,根据以往在商城的消费记录来判断,信用额度是否远远超过了逾期用户的消费能力,对于这类用户,建议适当降低信用额度。

图 2
图 2

  图 2 是通过净贷款金额、逾期金额、花呗激活后多长时间购物、信用额度、首贷是否逾期、使用花呗之前商场消费、用户等级等变量,用决策树算法算出来的逾期用户具备哪些特征容易逾期 90 天以上,得出的结论如下:

  逾期用户不易逾期 90 天以上的规则:

  (1)如果逾期金额 <=872,则不易逾期 90 天以上;(2)如果信用额度 >2680 且 872< 逾期金额 <=1795 且净贷款金额 >4922,则不易逾期 90 天以上。

  逾期用户易逾期 90 天以上的规则:

  (1)如果逾期金额 >872 且信用额度 <=2680,则容易逾期 90 天以上;(2)如果信用额度 >2680 且逾期金额 >1795,则容易逾期 90 天以上;(3)如果信用额度 >2680 且 872< 逾期金额 <=1795 且净贷款金额 <=4922,则容易逾期 90 天以上。

  贷中和贷后采用信用额度动态调整模型。信用额度动态调整模型主要解决花呗的信用额度调级以及还款拖延催收等问题。也就是当一个客户还款出现了逾期,是进行止付还是进行催收。当一个客户经常信用额度不够用或只使用信用额度很小一部分的时候,应如何调整信用额度,信用额度动态调整模型用客户过去的行为数据和规律来判断客户未来信用好坏的概率。有了这个概率,可以对信用好的客户调高信用额度,对于出现逾期的可以不马上进行止付,但要提醒客户,这样不但可以保持与客户之间的良好关系,还可以降低操作成本。

  传统的风险管理已无法有效控制跨区域、跨部门、跨行业的多种风险,利用科学的数据挖掘技术提高欺诈的防范,降低互联网消费金融产品的风险尤为重要,对客户进行科学评估造成风险的因素,有效规避互联网消费金融产品的业务风险,建立完善的风险防范机制,对于互联网消费金融产品的蓬勃发展有着重要的意义和价值。

  参考文献:
  [1] 王维东 . 电商生态进入消费金融领域互联网消费金融将迎来产业爆发期 [J]. 金卡工程,2014.
  [2] 黄海龙 . 基于以电商平台为核心的互联网金融研究 [J].上海金融,2013.

相关内容推荐
相关标签:数据挖掘论文
返回:计算机应用技术论文