管 VoI_16.No 2 理 S- 程 学 报 2002年第2期 Journal of lnduswial EngineeringJEngineering Management 一类表间多层次关联规则挖掘算法研究 张玉林 , 仲伟俊。, 梅妹娥。 (1东南大学经济管理学院,江苏南京210096;2,杨州大学税务学院,江苏杨卅l 225002) 摘要:关联规则采掘是数据挖掘曩其直用研究中的重要内容之一 奉文提出了多表间多概盘多层农关联规 则挖掘问题 研完了相关的挖掘算法,对所提出的葬击进行了初步分析 该算法应用于某营销经理信息系统的关 联规则挖掘 获得的结果表明算法是实用和有效的 关键词:数据挖掘;关联规则;经理信.包系统 中图分类号:n24 l 文献标识码:A 文章编号:1004-6062(2002}01-0053-04 引言 关联规则的采掘是数据库等领域众多学者关注的热点 研究问题之一 .目前应用最为广泛的关联规则挖掘主要 ,对多张表间的关联规则挖掘当然 是针对单张表进行的 用和有效的。数据挖掘的结果为满足给定支持度和置信度 的所有表间多概念多层次关联规则集。 1问题的形式化描述 如下二张关系表丁I和n是从某营销信息系统中的表 经过简化而来,它们通过交易代码关键宇一一对应 销售^ 员编码以s开头,紧随其后的数字码每两位一组,分别代表 该人员的部门、销售区号及在该销售区的十^代码等,共有 可以通过先将多个表进行连接生成一张新表后,再从所得新 表进行挖掘 但这样做明显有如下不足:1)表间连接存贮空 间开销大,当原表较大时这种情况尤为明显;2)实际麻用中, 这些表的具体管理很可能在不同的部门,M管理和安全的角 度考虑,可能不允许将这些表进行连接。关于单表内关联规 层。产品代码以P开头.紧随其后的数字码也是每两位一 组.分别代表该产品的类型、型号及品牌号等,共有n层。 它们的概念示意如图1所示 表1关系表丁1 则控制,许多学者做了不少研究工作,取得了很多研究成 果 ’。对多表问关联规则挖掘的研究也有一些探讨 l。 但对多表问多概念多层次关联规则的研究尚投有见到相关 的研究报道。 我们知道在实际进行数据库设计时,为优化设计.常常 销售^员编码(s-m) so】02o8 SO】0208 S1-啪l6 交易代码(T_ID) 【999o307.002 l999o3∞.006 2∞0∞0 O】8 依据范式理论.将数据库分解为若干通过关键字、外关键宇 或其他 性相互关联的若干张表的有机组合。这导致r许 多数据被分别存放在不同的表中。挖掘这些表L}1蕴藏的知 识和信息,显然有重要的理论和实践意义。在许多应用场 台.关联规则的挖掘要求在多层概念上进行。如在对某营销 信息的挖掘中,发现40%的销售^口销售了空调,进一步还 发现80%的02销售区的销售人员销售的空调是2.1匹的春 兰空调后。后者虽然抽象层次较低,但提供了明确而具体的 信息,这对做好决策有进一步的帮助。 本文研究两表间多概念多层关联规则的挖掘问题,挖掘 时表间不进行连接运算,算法面向大规模数据集,数据类型 寰2美系裹T2 产品代码(P-m) 变易代码(T-1D) 】999∞o7—002 P0】0530 P1_O】09 】999o3o7 0o6 200O0609_0】8 假定为布尔类型(对不是布尔类型的数据,可以先通过一定 的方法转化为布尔类型后再进行挖掘,如对取值为连续区间 的数值型数据,可通过分段划分为等级进行转化) 基于这 些假设.文中给出了两衷间多概念多层关联规则的挖掘问题 的形式化描述,提出了相关的挖掘算{去。谈算法直用于某营 销经理信息系统关联规则的挖掘,获得的结果表明算法是实 收捐日期:2001.03—05(修改稿) 基金珂目:闵家自然科学基盅资助(69774036) 设AI(k)表示表TI中销售^员编码属性的第 层属性 取值的集台( =1.--, ),A2(^)表示表 中产品代码属 性的第k层属性取值的集台( =l,…,n)。显然对表r1 与咒而言,A1( )与A2(^)容易确定。如对前述表r1而言, 作者简介:张玉林(【蚪一).男.江苏 化^.杨州大学税务学院计算机系副教授,博士生,主要从事信息系统翌数据库等的研究。 53 维普资讯 http://www.cqvip.com
张玉林等:一类表间多层次关联规则挖掘算法研究 围l相关层次概念示意田 A1(1)={O1,Il,…I,Al(2】={0102,1lO1.…I,A1(3)= …,m)是频繁的;如果项集 和y中的每一个数据项的祖先 010208.010206,l10115.…I,等。令Al=U Al( ), 在相关的层次上是频繁的,在当前水平上( y)是频繁的 A2=U A2(^)。 且 Y的置信度不小于相应最小置信闽值mineo ̄f—T1( ) 定义1 l TID(T,z)=i表示表T中支持其项集z的交 (i=1,…,m),则称 j Y是i层强关联规则。 易代码的集合t。 该定义要求只有高层次模式是频繁的,才考虑相应较低 定义1.2称IXI为集合x的长度(或集合x的元素个 层次模式的挖掘。它避免了非频繁模式的低层后裔模式的 数)。 产生。倒如营销数据中,如果电视是频繁模式,则20英寸电 两表间多概念多层关联规则数据挖掘就是寻找所有满 视这种低层模式将会被考虑,但是如果轿车是非频繁模式, 足给定最小支持度minsup和最小置信度minco ̄f的如下模 则它的后裔如奔驰轿车模式将不进行检测。 式: 定义l 5对表 1的第i层次上的项集X,若满足I TID j r{( C且l,Y C.42)或(X[A2.y[^1) (T1. f,p≥minsup—T1(i),则称X为表间 l的i层频繁 其中X, 是层次属性值的集台,称之为项集。这种模 集 表 1的所有i层表问频繁集的集合记为LTI(i)。 式(或规则)的古义是 l与 按同值交易代码连接得到的 新表中,包古X的元组的支持度 ≥minsup.同时包含 与Y 2 表间多概念多层次频繁集的生成算法MT— 元组的支持度/包含X的元组的支持度(即置信度c)≥ —IJT1L minconf。因 1和 的元组个数相同,可设P为 和 々LT1=U I LT1(i),LT2=U LT2(i).它们分别是 的元组个数。显然上述模式的支持度 =I TID( l, )I/p 或I TID(亿. )I,p.置信度c:I TID(T1,X)n TID(7'2,r)I, 表 l与 的所有频繁集。它们一旦确定.表间多层次关 P。儿置信度的表达式可知,我们研究的表间规则 j r与 联规则很容易确定,确定算法在第3节中研究。本节我们讨 yj 的置信度是一样的。 论生成LT1和LT2的算法。 定义1 3项集X∈A1.若]r∈A2,满足I m( l, ) 对每个表的项集u额外设计二个计数域 一个用来存放 f,p≥minsup.则称 为表间频繁集。若又有I r/D(TI. )n 项集所在的层次, 己为u.1evel;另一个用来存放它的支持度, TID(7'2 Y)I,P≥mincmff.则称 Y为强盖联规则。 表示为u support,它们可减少后续有关的计算。 引理1 若 为表间频繁集,则X的任意一个非空子集 为产生LT1(i)和LT2(i),参照文 中的算法.首先找到 也为表间频繁集;若 的某一个非空子集不为表间频繁集. 生成它们的超集CTI(i)和c'r2(i),然后利用它们生成Ⅱl(i) Ⅲ4 也不为表问频繁集 和LT2(i)。表Tl和12间多概念多层次频繁集的生成算法 引理是显而易见的 固而又有,如果XC^1不是表间 MT—NL一 1LT2如下。 频繁集,则它与^2的任意项集Y,不可能产生形如 j y的 算法MT—NL—LT1LT2 规则。与单表内挖掘多层关联规则类似0 ,为了挖掘多表 lnput:Tl,12 minsup—T1(i:i=1.….mJ,mi ̄up—T2(i:i: 间多层强关联规则,一般也要在不同的层次上指定不同的最 1,-,n) 小支持度和最小置信度。 Outpul: 1、LT2。/*表间多概念多层次所有频繁集*, 定义1.4如果在第i层上.项集X的支持度不小于相 Method: 关最小支持阀值minsup—TI(i) 则称模式 在水平i(i=l, CT!(1)=AI(1);,*表T]的第1层屑性取值的集台 维普资讯 http://www.cqvip.com
V0I I6. .2 管理工程学报 2002年第2期 对vx∈LTI,VY∈LI2.判断能否产生形如xjY或Y CT2(1]=A2(¨;/*袁T2的第1层届性取值的集台 jx的表间多概意多层攻关联规则的依据是它们是否满足 LTI(1)=垂; LT2(I)=垂; For all u∈CT1(1)do I11 level=1; if IrIl ̄(T1.U)I/p≥rmnsup—TI(I) LT1(¨=LTI(I)U11; 11 support=IrIO(T],u)I/p;I For all u∈CT2(I)do {u I el 1: if ITm(T2,u)I,p≥minsup T2(1) ILT2(1)=LI2(1)U u; u support=I盯D(T2,u)I/p; ca¨MT—ML ATI;/*生成表T1的非第1层的多概念 多层次频繁集*/ call MT ML AT2 /*生成表T2的非第1层的多概念 多层次频繁集 / LT1=U ⅡI(i); I,T2=U : LT2( ); 其中过程MT—ML AT1与MT—ML AL2如下 /*过程.ViT NL—AT1*/ Ⅱ∞cedure MT ML AT1 For(i=2,LT1(i)=垂;i≤n1.LTI(i一1)≠垂;i++) For all u∈『lT1(i—1)do ICT1(i)= ̄'/vEAI(i).subs(v,1 2*fi—I))=11 置v level=i; LTI(i)_IuI u∈CTI(i),满足I TID(T1.u)I/p≥ minsup TI(j),置u support=IrIO(T],u)I/pI; } /*过程M'r ML AT2*/ procedure MT ML AI2 For(i=2,LT2(i)=中;I≤n,LT2(j一1)≠垂;i++) i For all u∈LT2(i一1)d0 cT2(j)=i v∈A2(i),subs(v,1,2*(i一1))=U, 置v level=i}; LT2(1)=;u【u∈CT2(1),满足【TID('212.u1【 ≥ mi ̄up 1"2(i) 置u support=ITID(髓,u)I ; 容易看到,计算任一张表的表间频繁集与另一张表对应 求解过程无关,故这个生成运算可并行执行 3 多表间多层次关联规则生成算法GEN h L RIII ES 给定的支持度和置信度。多表问多层次关联规则的生成算 法如下: GEN—MTML RULES Input:TI,LT1 T2,LI2,mineo[If TI( minconf—T2(i:i=I, Output:表间多概念多层攻关联规则, Method: For all X∈LTI For aⅡY∈LT2 IⅡ(x support≥mir ̄up—T1(x.1eve1))&rId (ITID(T],X)n TID(T2,Y)/p≥ ̄neonI—TI(X. 1eve1) i输出:xjY with支持度=X.support,置信度=I TID(T1,x)nrlO( ̄,Y)/0 ̄F Ⅱ(Y supporl ̄minsup I"2(Y leve1))and (I ̄D(T1,x)n"lid(T2,Y)/p≥minco ̄f—T2(Y. 1eve1) 输出:YjX with支持度=Y support,置信度= TIn(T1,x)nTID(T2,Y)/p;I 窖易看出. 上算法生成的表问多概念多层次关联规 则,与将这些表按交易代码拼成一张新表进行挖掘的结果是 一致的。 4算法的应用研究 我们已尝试将算法用于某营销经理信息系统之中,在对 该系统中类似于第1节中表T1和T2进行挖掘时.发现的部 分表间多概念多层次关联规则如下: 1)(部门=o6j类别=电视机)(s=85%,c=95%) 2)(部门=06,销售区=05j类别=电视机,型号=25英 寸,品牌=长虹)(s= %,c=65%) 3)(类别=空调j部 =06,销售区=O9)(s=15%、c= 95%) 4)(类别=空调.型号=2 I ,品牌=春兰j部门=06, 销售区=09,销售号:18)(s=5%.c=90%) 规则①表明o6号部门销售了大部分的电视机(支持度 =85%.置信度=95%),而o6号部门正好是销售部门,这条 规则实质反映的情况与常识一致;规则②o6号部门在o6销 售区对25英寸长虹电视机的销售较好,可优先保证该部门 在该地区的此种类型电视机的供应,另外可考虑在公司内部 请06号部门介绍其在06销售区的促销做法。显然低层次 的规则②与高层次规则①相比提供更为细致而有用的信息。 规则④与规则③相对照也有类似的结论。 很明显,这些挖掘出的层次关联规则反映了表Tl与表 髓间蕴藏的深层知识和信息.对进一步搞好营销管理有重 要的指导作用。 55— 维普资讯 http://www.cqvip.com
张玉林等:一类表间多层次关联规则挖掘算法研究 5结束语 ,3 J JiaWei Han,Y ̄glian Fu,Mining Muhiple-Level Association Rule ̄in 我们在研究某营销经理信息系统时,发现研究表间多概 Large Databases L J]IEEE Trml‰K ̄wledse And Data Engineefin ̄, 念多层次关联规则的挖掘有着重要的理论和实践意义。本 1999.(5)11:789~805 文给出了挖掘表间多概念多层次关联规则的算法.其中的主 [4J Li Shen,Hong Shett,Ling Cheng,New algonthrosfor efl3 ̄ent minlntl of 要算法MT ML—LTILT2可并行执行,对频繁集增加的二个 —L叽【mRule ̄ J1 InbmnL帆Scie ̄.I999,(IsB) 25l一硝 [5]程继华,施鹏飞.多层次关联规则有的教挖掘算法[Jj软件学 数值域节省了计算时间。所提算法的思想可用于任意多表 报,1998,9(I2):937—941 间的相戋数据采掘。 [鲥胡侃,夏绍玮基于大型敷据仓库的敷据采掘:研究综述[门.软 限于篇幅和时间,对所提算法的存贮优化及效率等研究 件学报.1998,9(1):53~63 有待进一步深^,这里有很多工作要做,我们将在另文中进 『7 J铁治欣等采掘关联规则的高教并行算法 J]计算机研究与发 行研究 展,1999.36(8):948—953. 参考文献 [8]却之开.张广凡等.数据挖掘与知识发现:回顾与展望[】]信息 L1 J R Agraw tt ai Mining associatiootales between sets of】temsinlager 与控锎,1999,28(5) 357—365 dalabase[c]Pmc.ACM SIGMOD,1993,2O7—216 [9]左万利.多表间关联规则的井行挖掘算法[J]小蛩散型计算机 l2 J R Agmw et al Fast Mgortiht ̄for mining哪ocimI吼odes in L 系统,1999,20(83:574—577. lc]P 20 lnt’1 Conf Very Large Datab ̄,Sepl,1994 [10] 仲伟使,梅蛛娥,胡晚霞经理信息系统[J].管理科学学报, 478~499 1998.I(1):87—92 An Algorithm For Mining Multi-level Association Rules Agross One Sort Of Mul -Tables ZHANG ytt-]in .ZHONG Wei—iu力 .MEI Shu’e (1 College of Economics and Mat ̄agement,South east Umivers啊,Jiatlgsu NaJljing 210096 2 Taxation College Yang Zhou Umiversi ̄',Jiangsu Yangzhou 225002j Abstract:Mining Association Rules is the important aspaets of data mining and its application This paper puts forwards or sort problems about mining mu|if—level association iu|es among lables,gives 0ne mining algorithm,and some preliminary analysis about the a ̄orithm are .This algorithm has been applied in association rules mining in 0ne ma&efing EIS and shown that it is practical and effective. Key words:Data mining;Association Rules;EIS 责任螭辑:张蕾 56
因篇幅问题不能全部显示,请点此查看更多更全内容