2020年第24期
信s与电n
China Computer & Communication
针其机工程雇用技术基于SPSS的保险公司退保数据分析
帅俨殊杨杉
(四川大学锦城学院计算机与软件学院,四川成都611731 )
摘要:近年来,随着经济的快速发展,我国已成为世界第二大保险市场。本文主要研究不同方面对保险公司退保 数据的影响,选取某保险公司的退保数据,采用SPSS和E xcel针对不同年龄段与退保金额的关系、总保费与退保金额的 关系、退保原因与退保金额的关系、险种与退保金额的关系进行分析,并采用排序、分组、单因素方差分析、简单相关 分析以及探索分析等方法得出结论,并提出相应的建议,以保证双方利益。
关键词:数据分析;退保数据;SPSS分析
中图分类号:TP311.13 文献标识码:A文章编号:1003-9767 (2020) 24-033-04
Analysis of Insurance Company Surrender Data based on SPSS
SHUAI Yanshu, YANG Shan
(School of Computer and Software, Jincheng College of Sichuan University, Chengdu Sichuan 611731, China) Abstract:In recent years, with the rapid economic development, my country has become the world s second largest insurance market. This article mainly studies the impact of different aspects on insurance company surrender data, selects the surrender data of an insurance company, uses SPSS and Excel to focus on the relationship between different age groups and the surrender amount, the relationship between the total premium and the surrender amount, and the reason for the surrender Analyze the relationship with the surrender amount, the type of insurance and the surrender amount, and use methods such as sorting, grouping, one-way analysis of variance, simple correlation analysis, and exploratory analysis to draw conclusions, and put forward corresponding suggestions to ensure the interests of both parties .
Keywords:data analysis; surrender data; SPSS analysis
〇引言
保险是人们用来维护和规划自身财产的一种工具。在国 家的大力支持下,我国保险行业不断发展,保险行业有着巨 大的发展潜力⑴;同时随着现代社会体系的发展,人们de安 全意识逐渐增强,为解决后顾之忧,越来越多的人开始购买 保险。但同时,因为“盲目”投保或是因为自身其他原因退 保的人也越来越多,大量的退保会对保险公司以及自身带 来一定的损失。在机遇与挑战并存的情况下,保险行业必须 不断提升自身的竞争力p]。本文使用SPSS软件对保险公司 的退保数据进行相关性分析,并根据结论提出相关建议。1分析思路
1.1分析工具
四川大学锦城学院学费SPSS是一种统计分析软件,具有使用简单、功能强大、灵活、直观的特点[3],不仅可以对数据进行统计描述、多因
素统计方差分析等,还可以直接读取Excel、PDF文件中的 内容[4]。本文主要使用Excel进行数据清洗,使用SPSS读 取Excel文件的数据,对数据进行分析、探究。
1.2思路
首先,使用Excel对数据进行清洗,去除无意义的脏数据、
基金项目:四川大学锦城学院青年教师科协资助(项目编号:2018JCKY0002)。
作者简介:帅俨殊(2000—),女,四川西昌人,本科。研宄方向:大数据、数据分析。
通信作者:杨杉(1983—),女,四川成都人,博士研宄生,副教授。研宄方向:数据挖掘、大数据。E-mail: 3327589510 QQ.COITIo
针龙机工趕裘用技术信■与田腰
China Computer & Communication2020年第24期
无效数据以及会对数据分析产生影响的数据,保证数据的一 致性,删除利于后期的数据分析 '提高数据的准确度、公信力。使用SPSS通过排序、分组、单因素方差分析、双变量相关分 析以及探索分析等方法,探究不同年龄段、总保费、退保原因、险种与退保金额的关系,通过分析数据得出结论和建议。
2数据准备与清洗
2_1数据准备
退保数据共19列167 721行,主要包括的数据有机构、险种、投保时间、缴费方式、缴费期限、投保份数、总保费、保额、退保金额、投保时间、退保时间、退保原因、客户号、性别、年龄、婚姻状况
、过去三年收人、教育程度、职业以 及家庭人口。其中,总保费指投保人在第1年所需缴纳的所 有费用;保额指保险公司赔付的最高限额;退保金额指投保 人退保后,保险公司支付给投保人的总金额;D指离异,S 指未婚,M指已婚,W指丧偶,R指再婚,X指未知;过去 3年收人经过脱敏处理,并非真实数据。
2_2数据清洗
①删去表格中的空值行,删除平均年收入为0、4的行。
②隐藏无用数据列:机构、缴费方式、投保时间、退保时间、投保份数、教育程度和家庭人数等。③将年龄划分为幼年、青年、中年、老年4个年龄段,分别为18岁以下、18 ~ 38岁、39 ~ 58岁、59岁以上;④将保险以首字母进行分类,分为4、6、B、S、Y、L六类,其中L类保险仅有4条数据,不具有 普遍性,数据量较少会对均值等计算产生较大的影响,故删 去,最后剩余5类保险。
3 S P S S数据分析
3.1不同年龄段与退保金额的关系
采用单因素方差分析(one-way ANOVA)探究不同年龄 段与退保金额之间的关系(设置显著性水平为0.05),将年 龄分为4个年龄段:18岁以下、18 ~ 38岁、39 ~ 58岁、59岁以上。方差齐性检验和ANO
VA如表1、表2所示。
表1方差齐性检验
Levene统dfl df2显著性283.9503167 7170.000
表2ANOVA
平方和df均方F显著性组间9.325E103  3.108E10293.974 0.000
组内  1.773E13167 717  1.057E8
总数  1.783E13167 720
通过方差齐次性检验得到,显著性<0.05,说明拒绝原假设,即方差不具有齐次性,此时做非参数检验,对 Tamhane表进行讨论。从方差分析中看出,显著性< 0.05, 拒绝原假设,说明不同年龄段的退保平均金额有着较为显著 的差异。多重比较如表3所示。
表3多重比较
⑴年龄分组⑴年龄分组繼⑶标准误臟一-----------------------^
19 ~ 38岁-979.832 07689.867 660.656-2 883.881 4924.217 3
18岁以下39 ~ 58 岁-1 408.516 75689.722 470.253-3 312.243 7495.210 2 59岁以上-4 803.568 94*712.620 920.000-6 758.790 9-2 848.347
18岁以下979.832 07689.867 660.656-924.217 3  2 883.8814
19 ~ 38岁39 ~ 58 岁-428.684 68*50.028 430.000-560.313 1-297.056 3
59岁以上-3 823.736 88*186.049 290.〇〇0-4 313.367 7-3 334.106
18岁以下1408.516 75689.722 470.253-495.210 2  3 312.243 7
39 ~ 58 岁19 ~ 38 岁428.684 68*50.028 430.000297.056 3560.313 1
59岁以上-3 395.052 19*185.510 190.000-3 883.265 8-2 906.838 6
18岁以下  4 803.568 94*712.620 920.000  2 848.347  6 758.790 9 59岁以上19 ~ 38 岁  3 823.736 88*186.049 290.0〇0  3 334.106  4 313.367 7 39〜58岁  3 395.052 19*185.510 190.000  2 906.838 6  3 883.265 8注:均值差的显著性水平为0.05。
对不同年龄段进行两两比较。18以下年龄段与其他年龄 段进行比较,发现与59岁年龄段的退保金额显著性小于0.05,有显著性差异,根据均值差(I-J)发现18岁以下年龄段退 保金额均值小于59岁年龄段。19 ~ 38岁年龄段与其他年龄 段相比,发现与39 ~ 58岁和59岁以上年龄段的显著性均 小于0.05,有显著性差异,且19 ~ 38岁年龄段的退保金额 均小于其他。39 ~ 58岁年龄段与59岁年龄段比较,显著性< 0.05,有显著性差异,且39 ~ 58年龄段的退保金额小于 59岁以上的年龄段。总的来说,不同年龄段的退保金额有着 较为显著的差异,并且通过均值差发现,年龄越大退保金额 相对越高。
3.2总保费与退保金额的关系
针对总保费与退保金额,采用双变量相关分析,结果如 表4所示。
2020年第24期
信■与电B
China Computer & Communication
针其机工程裘用技术
表4总保费与退保金额的相关性
总保费退保金额
Pearson相关性10.912**
总保费显著疰(双侧)0,000
N167 721167 721
Pearson相关性0.912**1
退保金额显著性(双侧)0.000
N167 721167 721注:“赫在0.01水平(双侧)上显著相关0
假设总保费与退保金额具有相关性,从Pearson相关性 可以看出,总保费和退保金额的显著性(双侧)为〇.〇〇,小 于0.01,说明拒绝原假设,即总保费与退保金额具有显著相关性,并且它们的相关系数为0.912,说明存在较显著的正 向相关性。从分析中可得,总保费与退保金额有显著的正向 相关性,总保费越高,退保金额越高。
3.3退保原因与退保金额的关系
采用探索分析的方法,探究退保原因与退保金额之间的 关系。数据中的退保原因主要包括:被保人出国移居、服务 不理想、公司信誉、经济原因、失效退保、险种不理想、因转保而退保、因移出困难而退保和正常退保。退保原因与退 保金额统计量数据如表5所示。
表5退保原因与退保金额统计量数据
退保原因数量均值中值极小值极大值偏度峰度被保人出国移居87  2 640.931274.22  1.6059 130.007.37261.311服务不麵308  2 594.02736.90-94000.0094 000.00  2.67745.937
公司信誉206  2 659.30815.00-2 064.0086 400.008.55490.813
经济原因129 909  3 422.42819.00-169 044.00502 456.2712.660332.482
失舰保  3 134909,30396.00-1 406.7949 526.2511.027167.370隨不麵  5 5132412.97780.00-20 905.80136 297.888.963114.541因转保及移出困难而退保11844,96520.0012.06  2 518.00  1.041-0.352正常退保28 553  3 181.20780.00-96 211.62515 079.1919.135646.357从表5可以看出,客户退保的主要原因为经济问题;所 除正常退保外的其余非正常退保原因中,经济原因的偏有情况的偏度均为正数,即右偏,右边有较多极端数据,平度和峰度均为最大值,意味着因经济原因退保的数据有更多
均数大于中位数,各个退保原因的退保金额大多集中在中位 数以上;除因转保及移出困难而退保外,其佘均为尖峰分布,各个样本之间的差异性较大,其余值大部分集中在平均金额 附近。
比较均值可以得出,其中最大为因经济原因而退保的极端值,根据以上分析也可以得出,经济原因的退保数据 异常值较多,同时它的最低值也最小,为-169 044.00。所以 因经济原因退保的退保金额相对跨度较大,相对而言最不稳 定,而从图1可以看出,虽然异常值较多,但是大部分金额 依然处于中间水平。
(3422.42),其次是E常退保(3181.20)、公司信t (2659.30)、被保人出国移居(2 640.93)、服务不理想(2 594.02)、险 种不理想(2 412.97)、失效退保(909.30),最小为因转保 及移出困难而退保(844.96)。经济原因退保频率直方图如图1所示。
直方图
用于退保原因保:经3.4险种与退保金额的关系
采用探索分析的方法,探究险种与退保金额之间的关系。数据中包括5类保险,分别为4类、6类、B类、S类、Y类。险种与退保金额统计量数据如表2所示。
表6险种与退保金额统计置数据
险种数量/份均值中值极/K t极大值偏度峰度
4  2 507  2 838.281260.00-8 100.00184 000.0012,52254.11
689675.0265.00-250292.50.212  1.553
B  2 725  2 282.041 143.00-12 156.0030 820.00  3.48518.062 S152 614  3 226.18738.00-169 044.94515 079.1914.550427.21 Y8 975  5 282.43  2 124.37-42 000.00176 583.2  5.96752.129从表6中可以看出,Y类保险的均值最高,为5 282.43;所有保险的偏度和峰度都大于0,说明都属于右偏、尖峰分布,其中退保数量最多的是S类保险,为152 614份,占比髙达90.0%,并且该类保险的偏度、峰度最大,意味着 S类保险有较多的极端值,且大多极端值髙于均值,分布最 不均勻;6类保险的均值最低,为75.02,同时偏度和峰度最 小,说明数据分布较为聚集。从偏度和峰度可以得出5个险 种退保金额的稳定程度:6类> B类> ¥类> 4类>S类。从数据分析可以得出,S类保险均值最高,但退保数量最多,且退保金额分布最离散,最不稳定,6类保险退保数量虽然
针龙机工趕裘用技术信■与田腰
China Computer & Communication2020年第24期
最少,但是最稳定。
4结论与建议
4.1结论
第一,不同年龄段与退保金额的关系。本文将年龄分为 18岁以下、18 ~ 38岁、39 ~ 58岁、59岁以上,分析得出
不同年龄段的退保金额有着较为显著的差异,一般来说,年 龄越大退保金额相对越高。第二,总保费与退保金额的关系。总保费与退保金额存在显著的正向相关性,总保费越高,退 保金额越高。第三,退保原因与退保金额的关系。客户退保 的主要原因为经济问题,除正常退保外的其余非正常退保原 因中,经济原因的均值最大且大部分都集中于均值左右,但 退保金额跨度较大,异常值最多,相对而言最不稳定。第四,险种与退保金额的关系。S类保险的退保数量最多;S类保 险的退保均值虽然最高,但是退保数量最多,金额最不稳定;6类保险反之,虽然均值最低,但是最稳定。
4_2建议
4.2.1对保险公司的建议
第一,保险公司可以将客户划分为不同年龄段,例如:
以幼年、青年、中年、老年4个年龄段为参考,划分为18 岁以下、18 ~ 38岁、39 ~ 58岁、59岁以上,针对不同年 龄段的客户推出不同的保险方案以及优惠策略,保证保险质 量,在增加保险购买量的同时,减少退保数量。第二,对于 总保费较高的险种,保险公司可以适当提高其退保金额,在 保证自身利益的同时让客户的利益最大化,在无形中树立品 牌的形象。第三,在客户购买保险时,可以对投保人的经济 实力进行考察,向不同经济实力的客户推荐适合的保险方案,以减少因经济实力退保的情况;对于退保费较高的情况,保 险公司应该重点考察其原因是否真实有效,避免客户为高额 保费而填写虚假的信息。第四,对于退保金额最高的Y类保 险,保险公司可以适当降低其退保金额或提高总保费,以保 证自身利益;对于退保数量最多的S类保险,保险公司应该 对该类保险进行详细分析,对该保险的保费、保额等进行适 当调整,以减少退保数量。4.2.2对客户的建议
第一,不同年龄段的人应根据自身情况选择最适合的
保险,例如婴幼儿可以选择育才保险,中老年选择养老保险,
以减少退保风险。同时,要合理规划自身的财产,以保障自
身的财产安全。第二,大部分保险的总保费越高,退保金额
也越高,但某些险种也不乏一些陷阱,客户在退保时应当慎
重考虑,从年龄、够保时长等多方面进行考虑,以保证自己
的利益最大化。第三,在购买保险之前应当慎重考虑是否有
购保的必要,在全方位考虑的情况下选择最适合自己的保险,
尽量避免因保险不适合自己而发生退保的情况。同时,应当
考虑自己是否有足够的经济能力购买此类保险,避免因经济
问题退保。第四,在购买Y类保险时应慎重考虑自己是否有
能力或有必要购买,切忌跟风。
5结语
本文通过对退保数据进行分析,得出相关结论及建议。
保险公司在保证自身利益的情况下,可针对不同类型的客户
推出不同的保险方案,以减少客户的退保数量。同理,客户
在购买保险时,也应根据自身情况及需求选择对自己最有利
的险种,切忌跟风购买,使自身利益最大化。
参考文献
[1] 冯海琦,王琳琳,樊永红.基于卡尔曼滤波的人寿保险原保费收入预测分析[J].鲁东大学学报(自然科学 版),2021,37(1):6-10_
[2] 谷冬丽.保险公司竞争力测评方法研究综述[J].合作
经济与科技,2020, (12):120-121.
[3] 彭一慢,梁光德.SPSS在高校图书馆统计工作中的实
证研究[J]•现代情报,2010,30(10):l57-l59•
[4]孙海艳 ,汤青林,魏大勇 ,等.SPSS 统计软件在生物
统计及试验设计课堂及实验教学中的应用[J].安徽农业科
学,2020,48(19):273-275•
[5]赵一凡 ,卞良 ,丛昕 .数据清洗方法研究综述 [J]. 软
件导刊,2017,16(12):222-224.