基于数据挖掘技术的保险行业决策分析研究

2023-06-28 来源：个人技术集锦

基于数据挖掘技术的保险行业决策分析研究

摘要：本文针对目前保险行业信息管理的现状，提出数据挖掘技术对保险行业的重大影响,简要说明了保险行业决策系统V1。０项目及其对挖掘算法的改进等.并通过实验论证了改进算法的优势，通过分析结果展示了数据挖掘技术能使保险行业有效地利用现有数据实现经营目标，预测保险业的趋势，进而在激烈的竞争中赢得先机. XX

关键词:数据挖掘;关联分析；Aprioｒｉ XX 1 引言 XX

随着数据库技术的迅速以及数据库管理系统的广泛应用,**行**业积累的数据越来越多。日益剧增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、、统计等功能,但无现数据中存在的关系和规则,无法根据现有的数据预测未来的趋势.缺乏挖掘数据背后隐藏的知识手段,导致了数据但知识贫乏的现象. XX

随着计算机及网络技术的，获得某一行业有关资料已切实可行。而对于数量大、涉及面广的数据，依靠传统的简单汇总、按指定模式去分析的统计方法无法完成对数据的分析。因此，一种智能化的信息分析技术数据挖掘 (Data Ming）应运而生。

数据挖掘（Ｄａta Ming)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。数据挖掘是一种新的商业信息处理技术，是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据.从而使企业在激烈的市场竞争中获得先机。就保险行业而

言,目前具有广阔的市场需求。 XX

2 项目说明

本项目开发了保险行业决策系统V1.０。本系统操作主界面利用ASP编程实现：数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等功能;后台数据库利用Sl Seｒver 2021网络数据库实现;挖掘工具采用SPＳＳＣlｅmentｉne 11.0；在研究实验阶段，针对Ａpｒioｒi算法存在的存储复杂度及大量冗余规则两大缺点进行了算法改进，通过利用一个模式树结构来降低Apriorｉ算法的存储复杂度,并同时减少冗余规则的出现。 XX

本系统共分:数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等主要功能模块.

（１）数据预处理模块包括：上传、数据平台、数据处理、统计、生成数据集等功能。

● 上传:可完成保险总下设所有分数据的上传。

● 数据平台：在数据上传前允许对数据平台进行选择. XX ● 数据处理:对数据进行清理、格式转换等操作.

● 统计:对经过预处理的数据进行分析,提取有效性数据. XX

● 生成数据集：将统计过程提取的有效数据生成数据集,为数据挖掘提供较高质量的数据源。 XX

（2) 客户购买险种分析模块包括：数据导入、参数设定、结果分析等功能。 XX

● 数据导入:在此操作界面上，可通过选择不同数据平台将经过数据预处

理生成的数据集分别导入.

● 参数设定:在此操作界面上设定支持度置信度等参数，对有效数据集中有分析价值的数据记录范围进行筛选。 XX

● 结果分析:在此操作界面上可将客户购买险种分析的最终分析结果以报表、图表形式展示,此分析结果为行业提供了同一客户购买本多种(次）保险的客户信息，进而为行业提供了可争取客户的决策依据。

（３) 客户购买习惯分析模块包括：数据导入、参数设定、结果分析等功能。 XX

● 数据导入：此操作同(2）客户购买险种分析模块中的数据导入 .

● 参数设定:在此分别设定输入参数（包括：年龄、、职业等客户基本信息）及输出参数 (客户购买的险种信息)。 XX

● 结果分析：通过此操作界面可展示出客户购买习惯的分析结果,进而为行业提供了可保持客户的决策依据。 XX

（4）分析结果输出模块包括: 客户购买险种分析客户购买习惯分析等分析结果的打印输出功能。 XX

3 项目中改进的快速算法

基于数据挖掘技术的保险行业决策分析研究(2)

由于Apriori算法存在时间空间复杂度高及产生大量冗余规则两大缺陷.因此本项目通过利用一个模式树结构来降低Ａｐrioｒi算法的存储复杂度，并同时减少冗余规则的出现。 XX

3.1 一个模式树的结构 XX

rｏot是一个标为 nulｌ的根结点,rｏoｔ以下是作为根结点的孩子的项目前缀子树集合,以及项目头表组成；树中的每一结点包含四个域useｒ_ｉd,couｎt，ｎｏｄe_ｌiｎk,node_next。其中,user_id为uｓｅr的标记(唯一标识一个user）,cｏunt为该父结点到达该结点的路径的数目,noｄe_linｋ指向树中具有相同的user_id的下一个结点的下一结点，当下一个结点不存在时,node_ｌink为ｎull,ｎｏdｅ_next指向树中其子结点；项目头表的每一表项包含三个域：useｒ_id，cｏｕnt,heａd of nodｅ,useｒ_iｄ与树中的定义相同，cｏｕnｔ为树中所有相同ｕｓer_id之和,heaｄ of nodｅ指向树中具有相同user_ｉd值的首结点的指针。

３。2 建立模式树 XX 算法如下：

设事务数据库为Ａ,其中的一个项集为Aｉ. XX 算法:Patｔerｎtreｅ(tree，ｐ）,构造模式树

输入:用户事务数据库A

输出:用户模式树

Pｒｏceｄｕｒe Pattｅrntrｅe（T,p)

{creaｔe_ tｒee （T);//创建Pattern－Trｅｅ的根节点，以ｎull 标记

t=T； /／ｔ为当前结点 XX

Wｈｉlｅ A null do

{读入一个事务数据库项集Ai XX wｈile p ！=null

dｏ

｛if p。user＿ｉd==t的祖先n.ｕsｅr_iｄ

then

{ n。cｏunｔ=n.cｏuntl;

ｔ=n； XX }

Elsｅif p。user_ｉｄ=＝T的孩子c。user_iｄ XX tｈen XX

{ ｃ．count＝c。couｎt l； XX t=c ；

}

elsｅ XX

iｎsert_Paｔterntree（T,ｐ) ;/／把p作为新结点插入树中，作为当前结点的孩子结点

p=p.ｎｅxt； XX ｝ XX } XX ｝

3。3 对模式树进行剪枝 XX

模式树建立后，可能存在大量的冗余的分枝，为了保证数据挖掘结果不被这些冗余分枝产生的噪声所影响，因此需要对树进行剪枝,剔除噪声信息。 XX

算法:SPT(Ｔree，a）,通过调用此算法对模式树进行剪枝

//ＳPT为支持度模式树,即Suprｔed Accｅss Paｔtern Tｒee；a为项目头表

输入:模式树PatteｒnＴｒeｅ，Ｍｉn_Ｓuｐ(模式树的最小支持度）

输出：经过修剪后的支持度模式树SＰT，模式B=｛bi｜ｉ=１,2,３ n｝

SPＴ(Tｒｅe，a）

基于数据挖掘技术的保险行业决策分析研究（3)

｛ i=1； XX

Ｗｈiｌe（ai！= null) // 为项目头表的某一项

｛ XX

if（ai．ｃouｎt = Min_Sup） XX theｎ XX ｛

模式bi＝ａi。heaｄ of nodｅ；XX

p= ai。ｈｅad ｏf node ;／/p指向ai在模式树中 XX 的位置

Whｉle （p!= nｕｌｌ anｄ ai。ｃounｔ = Ｍiｎ_Ｓuｐ) XX ｛

查找p的前缀基，将p的前缀基和p连接，构

成模式b; XX

if （ｂi。coｕnt ＝ Mｉn_Sup) XX then XX ｛ XX

//bｉ.coｕnｔ为模式b中p与p的前缀基中 XX 的最小计数

在模式ｂi中保留ｐ及其前缀基; XX bi = bi。 noｄｅ_link XX ｝ XX ｅlse XX { XX

根据模式b中的p及其前缀基删除 XX

ＰａtterｎＴreｅ中的相应节点，重构子节点 XX 与父节点,同时修改项目头表中的ai； XX p=ｐ．ｎodｅ_next／/p指向在模式树中的 XX 下一个位置；

} XX }

｝

else XX ｛

修改项目头结点的ai值; XX

删除模式树中相应的节点及其前缀基,重构父子

节点； XX ｉ; XX ｝

｝

｝ XX

通过模式树的建立可以避免多次扫描事务数据库；同时利用counｔ域有效的保留了项集的数目，避免大量产生频繁项集，对于减小空间时间复杂度起到了一定的作用.通过树形结构可以避免产生大量冗余规则。 XX

通过对模式树的剪枝,可以减除在模式树产生过程中产生的大量冗余分枝，起到了减小空间复杂度的作用，同时可以利用输出模式B产生规则，避免了多项集的频繁出现，减小了时间复杂度。

4 结束语

本项目中通过模式树结构改进了Aｐrioｒi算法，弥补了Ａpriorｉ算法存在的缺陷。此种方法既能够对Aprｉori算法从时间复杂度和空间复杂度上进行改进，同时又避免了中间规则的产生。本研究表明，通过利用一个模式树结构来降低Ａpｒioｒi算法的存储复杂度,并同时减少冗余规则的出现,这对于Ａpｒiori算法的改进是一种有效的措施. XX

邓纳姆.数据挖掘教程。郭崇慧，田凤占，靳晓明,等译。：清华

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于数据挖掘技术的保险行业决策分析研究