数据挖掘》练习题(第6章)(总3
页)
--本页仅作为文档封面,使用时请直接删除即可--
--内页可以根据需求调整合适字体及大小--
一、填空题
1、关联规则挖掘的目的是 。 2、在下列事务数据集中 TID 项集 1 {面包,牛奶} 2 {面包,尿布,啤酒,鸡蛋} 3 {牛奶,尿布,啤酒,可乐} 4 {面包,牛奶,尿布,啤酒} 5 {面包,牛奶,尿布,可乐} 项集{啤酒,尿布,牛奶}的支持数为 ,支持度为 。
3、在第2题的事务数据集中,如果将最小支持数定为3,则数据集中的频繁项集有 。
4、在第2题的事务数据集中,规则
{牛奶,尿布}→{啤酒}
的支持度为 ,置信度为 。
5、满足最小支持度和最小信任度的关联规则称为 。
6、给定一个事务数据库,关联规则挖掘间题就是通过用户指定的 和 来寻找强关联规则的过程。
7、关联规则挖掘问题可以划分成 和 两个子问题。 8、可以降低产生频繁项集的计算复杂度两种方法为: 和 。
9、k候选集Ck产生的方法有: 、 和 。 10、Apriori算法有两个致命的性能瓶颈。它们分别是:
(1) (2) 二、多项选择题
1、设有项目集X,X1是X的一个子集,则下列结论中成立的是( ) A、如果X如果频繁项目集,则X1也是频繁项目集; B、如果X1如果频繁项目集,则X也是频繁项目集; C、如果X如果非频繁项目集,则X1也是非频繁项目集; C、如果X1如果非频繁项目集,则X也是非频繁项目集;
E、如果X如果频繁项目集,则X1可能是频繁项目集也可能是非频繁项目集。
2、设3-项集a,b,c是频繁项目集,则下列1-项集和2-项集中,( )是频繁项目集。
A、a,b B、b,c C、a,c D、a E、b
2
3、设事务数据库D具有项集IA,B,C,D,已知BCAD不是强关联规则时,则下列关联规则中,( )一定不是强关联规则。
A、BACD B、CDAB C、CABD D、ABCD E、ADBC
4、设事务数据库D具有项集IA,B,C,D,已知BCAD不是强关联规则时,则下列关联规则中,( )一定不是强关联规则。
A、BACD B、CDAB C、BCDA D、ABCD E、ADBC
5、假设关联规则beda具有低可置信度,则在关联规则生成算法中,规则( )应该被丢弃(剪枝)。
A、cdab B、adbc C、bead D、dabc E、bdae 三、问答题
1、进行关联分析时,需要处理的两个关键问题是什么 2、将下列事务数据库的用二元形式表示
TID 项集 1 {面包,牛奶} 2 {面包,尿布,啤酒,鸡蛋} 3 {牛奶,尿布,啤酒,可乐} 4 {面包,牛奶,尿布,啤酒} 5 {面包,牛奶,尿布,可乐} 四、求解题 1、设有如下事务数据库:
TID Itemset 1 A,B,C,D 2 B,C,D 3 A,B,C,E 4 B,D,E 5 A,B,C,D (1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。 2、考虑下表中购物篮事务数据集。 顾客ID 购买项 1 {a,d,e} 1 {a,b,c,e} 2 {a,b,d,e} 3
2 {a,c,d,e} 3 {b,c,e} 3 {b,d,e} 4 {c,d} 4 {a,b,c} 5 {a,d,e} 5 {a,b,e} (1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。 3、考虑下表中显示的购物篮事务。 事务ID 购买项 1 {牛奶,啤酒,尿布} 2 {面包,黄油,牛奶} 3 {牛奶,尿布,饼干} 4 {面包,黄油,饼干} 5 {啤酒,饼干,尿布} 6 {牛奶,尿布,面包,黄油} 7 {面包,黄油,尿布} 8 {啤酒,尿布} 9 {牛奶,尿布,面包,黄油} 10 {啤酒,饼干} (1)设minsupport=40%,利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。
(2)设minconfidence=60%,利用Apriori算法生成找出所有的强关联规则。
4
因篇幅问题不能全部显示,请点此查看更多更全内容