关于spss的论文范文第三篇:基于SPSS软件分析某保险公司的新投保数据及理赔数据
摘要:以某保险公司近几年的新投保数据以及理赔数据为研究对象,利用SPSS软件对表中的总保费、理赔费分别与年龄进行相关性分析,采用探索分析中茎叶图、箱型图、置信区间等多个方面来进行研究,从得到的图表和数据能直观看到年龄与总保费的关系以及年龄与理赔费之间的关系,分析出什么年龄段的人购买的保险费用最高或最低,哪个年龄段的人得到的理赔费最多或最少,得出在哪个年龄段购买保险最好,并为现代社会购买保险的人提出相关性建议并进行改善。
关键词:总保费;理赔费;年龄,探索分析,
作者简介:张伊涵(1999-),女,汉族,四川南充人,本科在读。主要研究方向:大数据分析。;*杨杉(1983-),女,汉族,四川成都人,博士,副教授。主要研究方向:数据挖掘、大数据。;
基金:四川大学锦城学院青年科协资助,项目名称:四川大学锦城学院大数据实验室建设(项目编号:2018JCKY0002);
随着社会的快速发展,人们会选择购买各种各样的保险,每个险种都是一种安全的保障,它可以在一定程度上面给我们减轻经济的压力,保险就是风险转移的工具,现代的保险有各种各类的供我们选择,每种保险的费用都不一样,对于不同类型的人群他们的总保费和理赔费也存在差异性。
文章以90万条新投保数据以及20万条的理赔数据为例,利用SPSS对人群年龄来分析他们的总保费和理赔费,认为人群的年龄与总保费、理赔费具有一定的相关性,这需要通过SPSS软件的强大功能来进行详细的分析,从多个角度来证明人群类型与总保费、理赔费用之间存在的联系,比如探索分析、相关性分析、箱型图和茎叶图等角度,来详细了解当代社会各种类型的人对保险的需求以及得到的赔偿情况。
一、SPSS软件的简介
(一) SPSS软件的现状
SPSS(Statistical Product and Service Solutions)是统计产品与服务解决方案简称。为IBM公司一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务总称,有Windows和mac OS等版本。[1]
现代的医疗事业、教育事业、市场调研、营销调研等工作,都离不开SPSS软件的使用。随着社会的进步,我们的身边都存在大量的数据,当对海量的数据进行分析时,越来越多的人会选择使用SPSS软件。
(二) SPSS软件的特点
SPSS能快速方便的导入数据,接口非常丰富,以类似于EXCEL的结构输入数据,界面简洁干净,只要能简单了解数据分析的基本原理和简单的电脑操作就能对数据进行系统处理并且能进行各种角度分析,操作简便,输出结果直观详细。SPSS将数据录入、数据清洗、数据分析融为一体,包含一些数据排序、数据重新编码、描述统计、相关分析、回归分析以及图表展示等多种功能,让我们在数据分析的过程中感到轻松易懂。
二、数据说明
(一)数据来源
数据来源于四川省某高校在线学习平台,有新投保数据和理赔数据两张表,新投保数据有九十多万条,理赔数据有十多万条,包含了保险公司近几年来总保费、赔款金额、年龄、过去三年平均年收入、家庭成员、保额等数据。
(二)数据清洗
表中有许多数据我们是用不到的,只需要留下总保费、赔款金额、年龄这三列来进行分析,赔款金额为0的数据要进行删除,并删除总保费和赔款金额过高的异常值,再将年龄进行分组,将0~18岁设置为未成年,19~45岁设置为青年人,46~55岁设置为中年人,55岁以上的设置为老年人。再利用SPSS软件从不同的分析方法来分析年龄与总保费、理赔费之间存在的关系。
三、年龄与总保费数据对比分析
(一)相关性分析方法
Person是一个-1到1的值,表示两组线性的数据一同变化移动的趋势,当两组数据呈现强烈相关性时,系数会更接近于-1或1;如果系数接近0,那么两组数据表示不存在线性相关性;如果一组数据随着另外一组数据的增大而增大,则相关系数大于0,两组数据属于正相关性,如果一组数据随着另外一组数据的增大而减小,那么相关系数小于0,这两组数据是负相关性。[2]
图1 相关性分析图
由图1表明无论是总保费随着年龄的变化而变化还是年龄随着总保费的变化而变化,它们的相关性系数都为0.91且接近于1,说明两者具有强烈相关性且属于正相关;同时在相关性系数后的两个**代表sig值小于0.01,如果一个*表示系数小于0.5,三个*表示系数为0.01,sig值是显著性指标,一般大于0.05表示数据之间相关性不显著,小于0.05表示相关性显著;所以一般情况下相关系数后面存在一个*能表明两组数据具有显著相关性了,表中出现两个**说明年龄与总保费具有强烈相关性,随着年龄的增大,总保费也增高。
(二)探索分析方法
图2 未成年数据描述
先提取图表关键性的词语(偏度、峰度),偏度(Skewness)展现了数据偏斜方向与程度的度量,当左右分布对称时,偏度系数为0,也是所谓的正态分布,在现实的数据中一般不会出现正态分布;当偏度小于0时,图像分布为负偏离,表示数据位于均值的右边比左边多,大部分数据偏大;当偏度大于0时,则相反;同时偏度的绝对值越大,数据分布偏移程度越严重。峰度表示概率密度发布曲线在平均值处峰值高低的特征数,用来描述分布形态的陡缓程度,峰度为0时,表现为正态分布;当峰度小于0时,则峰度分布平缓;当峰度大于0时,则峰度发布陡峭。[3]
根据年龄进行的分组,通过分析得到的图2(以未成年人数据分析为例),可以发现任何一个年龄段的人偏度与峰度都是正数,说明人们购买保险的总保费普遍较低,高总保费较为稀疏,但随着年龄的增长,偏度与峰度的值越来越小,代表着总保费向着高的趋势发展,老年人购买保险的费用相对较高;同时也可以根据均值的95%置信区间对数据总体参数进行区间分析,明显可见随着年龄增长,置信区间上下限大,代表总保费在增高,与通过偏度峰度得出的结论吻合。
最后还可以通过箱型图形象的表现出了多种统计量所处的位置,分为中心、延伸以及分布状态的全部范围,箱型图中间明显的一条黑线代表数据的中位数。
由于数据过多系统所绘制的箱型图无法完整的展现出来,便只保留了数据中最多的一块区域,将其他范围的数据删除;最后可以明显看出四个年龄段的人总保费的中位数都位于偏低的位置但呈逐步上升的趋势,说明人们的总保费总体是偏低状态但随着年龄增长总保费总体趋势会增高,其中未成年人总保费数据总体最低,老年人最高;箱型图上方的数据表明有少部分总保费数据偏高,未成年人的数据分布最为稀疏,这与投保人数和年龄都有关。
四、年龄与理赔费数据对比分析
由探索分析的有效案例可以知道,未成年人赔款的人数只有13人,表明了现代社会未成年人需要保险公司赔偿的人数较少,而青年人和中年人的赔款人数最多,老年人其次。
(以老年人数据分析为例) 95%的置信区间提供了一种区间估计的方法,其中95%被称为置信水平,是统计时的一种习惯,表示当构造出100个区间时,当中就会包含95个是真实值,当然也可以根据实际情况来设置合适的置信水平,如果置信水平降低,那么区间会越靠拢,上限升高,下限降低;而置信区间展示的是这个参数的真实值有一定概率落在测量结果周围的程度,来表示推断的结果。
那么可以通过均值为95%的置信区间明显看出,虽然未成年人的赔款人数最少,但是总体的赔款金额是最高的,而老年人的赔款金额略低一些,处于2000的一个总体的水平,青年人和未成年人虽然赔款人数最多但是赔款金额总体确实最低的,大概都是一千多的水平。并且也能通过峰度和偏度的数据可以看出图形是右偏的,高赔偿金额整体较低,数据越大赔款金额越低,那么青年人和中年人的理赔费用普遍较低,未成年人高赔偿金额较多,老年人其次,这与通过置信区间所得出结论一致。[5]
同时还可以从探索分析展示的茎叶图进行分析,茎叶图通过名字可以知道分为茎和叶,是数据频数统计的一种方式,它将数的大小基本不变或变化不大的位作为茎(图的主干),那么变化大的位则作为叶(图的分支),叶在茎的后面,就可以清楚的看出数据的多少与大小。图中的Stemwidth意思为茎叶的宽度,图中的主干需要乘以宽度才为数的正确大小,而Eeachleaf则是每片叶子代表的个案数。[6]
从茎叶图中可以看出,未成年人的赔款金额众数是在2000~2900这样的一个区间,而青年人、中年人和老年人的赔款金额众数区间是一样的,都在1000~1090的位置。可以观察到除了未成年人,其他年龄段的人赔款金额区间频率大致相同,也可得到未成年人的赔款金额相比较高,青年人、中年人、老年人相比赔款金额变化不大。
五、建议
在我们现代生活中保险扮演着一种"安全网"和"稳定器"的角色,它能保障人民的日常生活,也能维护社会的稳定,对中国的经济发展也起到了重要的作用,是人们生活中已不可或缺的一部分,买一份保险就是买一份心安,随着年龄的增长,身体的各种机能也在逐渐衰退直到丧失劳动能力,所以老年人是一定需要购买保险的,比如人身保险、财产保险等,但是人年纪大了更容易发生疾病与意外,保险公司拿你的保险费可以去投资的时间就越少并且赔付的风险也随之提高,那么总保费也会增加,所以我们应该越早买保险越好,0岁的小孩买保险是最便宜的,年龄越大保险公司收取的保险费会更多。年龄越小理赔人数越少,但赔款金额会随之增加,说明小孩发生疾病时一般情况比较严重,而老年人只是普遍的身体疾病,我们应多注重自己的身体健康与人身安全,更应该保证小孩的身体健康,追求一辈子都能不发生疾病或意外,最后正常老去的身故赔偿额一般也会比交的保费更多一些,就把这一部分当作"利息"给家人。
六、结语
我们通过年龄与总保费数据进行相关性、探索对比分析,可以得到两者之间是强相关性,且随着年龄的增长对于购买保险的费用也在增多;而当年龄与理赔费用进行对比分析时,我们通过置信区间以及茎叶图可以看出未成年人的赔款金额相比最高,老年人其次。
参考文献
[1]兰鹰,肖诗伯,杨玉梅。利用SPSS在图书馆统计分析工作中的探索[J] .电脑知识与技术, 2018,14(35):1-2.
[2]章震宇。人力资源理论与实践[].上海:华东师范大学, 2008.
[3]蔡忠建。对描述性统计量的偏度和峰度应用的研究[J] .北京体育大学学报, 2009,32(3):75-76.
[4]孙丽君。探索性数据分析方法及应用[D] .大连东北财经大学, 2005.
[5]宋鸿,陈晓玲。基于茎叶图的数据分析与制图方法[J] .统计教育, 2008(2):16.
[6]王文千。浅析人口老龄化对人身保险消费的影响[J] .营销界, 2019(33):.75-76.