您的当前位置:首页正文

一种改进的协同过滤推荐算法

来源:个人技术集锦
龙源期刊网 http://www.qikan.com.cn

一种改进的协同过滤推荐算法

作者:魏欢 陈建斌 张虎

来源:《软件导刊》2015年第11期

摘要:协同过滤算法在互联网飞速发展的今天得到了广泛应用。由于数据量的膨胀式发展,传统推荐系统的推荐效率受到前所未有的挑战。提出一种改进的协同过滤推荐算法,对数据库数据先进行聚类操作,将用户对项目的平均评分和项目被评价过的次数作为二位网格的维,再根据项目相似性,运用CLIQUE网格聚类算法进行基于项目的聚类。应用协同过滤推荐算法在对应的聚类簇中找到推荐项目。实验证明,该方法能明显提高推荐系统的推荐效率。 关键词关键词:CLIQUE;协同过滤;推荐效率 DOIDOI:10.11907/rjdk.151673 中图分类号:TP312

文献标识码:A文章编号文章编号:16727800(2015)011005703

作者简介作者简介:魏欢(1989-),男,陕西宝鸡人,西安工程大学理学院硕士研究生,研究方向为应用软件;陈建斌(1966-),男,陕西长武人,西安工程大学理学院副教授,研究方向为应用软件;张虎(1989-),男,山西大同人,西安工程大学理学院硕士研究生,研究方向为应用软件。 0引言

随着互联网和电子商务的飞速发展,电子商务系统中的商品种类和数量快速增长,面对丰富而复杂的信息资源,顾客想要找到自己需要的商品需要花费大量时间浏览相关信息,而要从中挑选出自己真正需要的商品变得非常困难。为了解决这一问题,众多学者和系统开发人员研究出了各种基于智能算法的推荐技术。这些基于智能算法的推荐系统都能从不同角度解决和处理各种大数据问题,为顾客提供完全个性化的推荐信息。

随着相关技术的发展,各种基于智能算法的推荐系统已经成为各大电子商务网站及各大科技公司的研发重点,这些算法的研究得到了许多开发者和研究者的支持[4]。在电子商务竞争日趋激烈的今天,几乎所有大型的电子商务网站,如淘宝、京东、Amazon、eBay等,都在系统中采用了不同的智能算法以满足用户的需求,来提高自己的竞争力。协同过滤算法是这些优秀的推荐算法中最为成功的一种,该算法的基本思想是根据基于评分相似的最近邻居的评分数对目标项目进行预测评分,通过选择预测评分较高的项目向用户产生推荐[5]。随着互联网技术和电子信息技术的飞速发展,商品和用户数据库信息量非常庞大,传统的协同过滤推荐需要在整个数据库项目中搜索目标项目的最近邻居来完成推荐,而计算目标项目的最近邻居的相似性非常耗时,这就使得推荐系统的推荐效率受到空前的挑战[6]。

龙源期刊网 http://www.qikan.com.cn

本文提出一种改进的协同过滤推荐算法。第一步离线处理现有数据,将用户对每个项目的平均评分和每个项目被评价过的次数作为二位网格的维,设置密度阈值和密度比阈值,运用CLIQUE聚类算法先对数据进行聚类处理,将项目评分和项目被评论过的次数比较类似的项目加入同一个聚类簇中,生成对应的聚类簇和离散点簇,初步聚类结束后计算每个离散点与非离散点聚类簇中心的相似性,找到与离散点最相似的聚类簇中心将离散点划入该簇,最终得到项目按相似性划分的聚类簇。然后采用传统的协同过滤推荐算法选择目标项目所在的聚类簇作为查询空间,在这个聚类簇中搜索目标项目的最近邻居,因此可以在较少的项目空间上搜索到目标项目的最近邻居,最后根据用户对最近邻居的评分预测该用户对目标项目的评分,并产生最终的推荐列表。虽然对项目进行聚类预处理会花费一些时间,但由于此类系统都是处理数据库已有的历史数据,所以这一步骤可以在系统推荐之前完成,系统推荐效率完全没有影响。经过实验,本文章提出的方法能明显提高推荐系统的推荐效率。 1传统的基于项目的协同过滤推荐算法

传统的协同过滤推荐算法[7]是根据用户对相似项目的评分预测用户对未评分项目的评分,在预测出的评分项目中找到前项评分较高的项目推荐给用户,这一算法需经过3个步骤来完成最终推荐。第1步:得到用户对项目的评分数据表,产生对应的用户-项目评分矩阵;第2步:运用相似性算法计算目标项目与一般项目的相似性,得到目标项目的邻居集;第3步:由用户对邻居集中项目的评分计算出用户对目标项目的预测评分,对评分列表中的所有未评分项目进行预测评分,最后取出前项评分较高的项目产生对用户的最终推荐。 4结语

随着网络技术的飞速发展,用户数目和项目数据急剧增加,推荐系统的推荐效率受到极大挑战。实际应用中,数据量的膨胀式发展使我们不得不考虑数据处理效率问题。本文提出的网格聚类的方法采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。这种方法 的优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中每一维上的单元数。这对处理庞大的数据量至关重要。同时这些数据都是数据库已有的存储数据,可以先对数据库数据进行CLIQUE网格聚类,然后再运用协同过滤技术进行推荐。改进的算法在真实数据集上进行验证实验表明改进的方法在一定程度上提高了协同过滤算法的推荐效率。 参考文献:

[1]邓爱林,朱杨勇,施伯乐.基于项目评分预测的协同过滤算法[J].软件学报,2003,14(09),16211625.

[2]何光辉,魏曙光,王蔚韬.改进的聚类邻居协同过滤推荐算法[J].计算机科学,2004,31(11):147149

龙源期刊网 http://www.qikan.com.cn

[3]王茜,王均波.一种改进的协同过滤推荐算法[J].计算机科学,2010,37(6):226228,243

[4]SCHAFER J B,KONSTAN J AND RIEDL J.Recommender systems in ecommerce[C].In:ACM Conference on Electronic Commerce(EC99),1999,158166.

[5]彭德巍,胡斌.一种基于用户特征和时间的协同过滤算法[J].武汉理工大学学报,2009,31(3):2428

[6]SCHAFER J B,KONSTAN J A,RIEDL J.Ecommerce recommendation applications[J].Data Mining and Knowledge Discovery,2001,5(12):115153.

[7]傅鹤岗,王竹伟.对基于项目的协同过滤推荐系统的改进[J].重庆理工大学学报:自然科学版,2010,24(09):6974

[8]SARWAR B,KARYPIS G,KONSTAN J,et al.Itembased collaborative filtering recommendation algorithms [C].In:Proceedings Of The Tenth International World Wide Web Conference,2001,285295.

[9]BREESE J,HECHERMAN D,KADIE C.Empirical analysis of predictive algorithms for collaborative filtering [C].In:Proceedings Of The 14th Conference On Uncertainty In Artificial Intelligence(UAI98),1998,4352.

[10]JIAWEI H,MICHELINE K.Data mining:concepts and techniques.MORGAN KAUFMANN,2000 [EB/OL ].http://www.cs.sfu.ca/~han/. 责任编辑(责任编辑:陈福时)

龙源期刊网 http://www.qikan.com.cn

龙源期刊网 http://www.qikan.com.cn

龙源期刊网 http://www.qikan.com.cn

因篇幅问题不能全部显示,请点此查看更多更全内容