第33卷第4期 计算机应用研究 V01.33 No.4 2016年4月 Application Research of Computers Apr.2016 大数据下的快速KNN分类算法 苏毅娟 ,邓振云 ,程德波 ,宗鸣 (1.广西师范学院计算机与信息工程学院,南宁530023;2.广西师范大学广西多源信息挖掘与安全重点实验 室和广西区域多源信息集成与智能处理协同创新中心,广西桂林541004) 摘要:针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一 种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂 度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样 本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。 实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。 关键词:K最近邻;测试复杂度;大数据;分块;聚类中心 中图分类号:TP301.6 文献标志码:A 文章编号:1001—3695(2016)04.1003—04 doi:10.3969/j.issn.1001-3695.2016.04.009 Fast KNN classification algorithm under big data Su Yijuan ,Deng Zhenyun2 ,Cheng Debo ,Zong Ming2 (1.College ofComputer&Information Technology,Guangxi Teachers Education University,Nanning 530023,China;2.Guangxi Key Labora— tory ofMulti·source Information Mining&Security and Guangxi Collaboratiev Innovatoin Center ofMulti—Source Informatoin Interation&Intelli— gent Processing,Gnangxi Normal Unievrsity,Guilin Gnangxi 541004,China) Abstract:Aiming at the problems of the K—nearest neighbor algorithm,testing complex is linear at least,and lead to the ac— curacy is low when the samples are large.This paper proposed a fast KNN classification algorithm faster than the traditional KNN did.The proposed algorithm innovatively introduced the training process during the KNN method,i.e.,the algorithm blocked the big data by linear complexity clustering.Then,the algorithm selected the nearest cluster as new training samples and established a classification mode1.This process reduced the KNN algorithm testing overhead,which made the proposed al— gorithm could be applied to big data.Experiments result shows that the accuracy of the proposed KNN classification is similari— ty than the traditional KNN,but the classification speed has been signiifcantly improved. Key words:K-nearest neighbor(KNN);testing complex;big data;block;cluster centers 一种基于密度的训练样本裁剪方法,使样本分布密度趋于平 0引言 均,降低了KNN的计算量。文献[4]提出了一种基于利用中 随着互联网的迅猛发展,大数据不断地产生,分类作为当 心文档代替原始样本建立分类模型的方法,减少了KNN算法 需要进行相似计算的样本数,从而达到提高分类速度的目的。 前数据挖掘中最实用的技术之一,已得到广泛的应用。目前常 用的分类方法有决策树、人工神经网络、SVM、Bayes、KNN等。 文献[5]提出了减少大量计算的排类算法和归类算法,在不影 响原有准确率的情况下,构建了一种基于KNN的快速分类算 KNN算法因其简单和有效在分类算法中得到了广泛的应用, 法,提高了分类的速度。这些算法主要是通过快速搜索算法、 其基本思想是:在训练样本中找到待测样本的k个最近邻样 降维 或通过一定的优化策略直接减少需要进行相关性计 本,然后根据这k个最近邻样本的类进行投票,以此来决定测 算的样本数,从而提高分类的效率。但当面临大数据和高维样 试样本的类别。但是KNN在寻找最近邻样本的过程中,需要 本时,这些分类方法的效率将会大幅度降低 “ 。 逐个计算测试样本与每个训练样本的距离(或相似度),当训 针对KNN算法无训练过程的特点 ”J,本文创新性地对 练样本为大数据时,将会产生很高的计算开销,如果大数据集 其引入一个训练过程,即首先采用线性复杂度聚类方法对大数 是保存在内存(或硬盘)中,这种逐个扫描的方式几乎不可行。 据进行分块。而在测试过程,对于每一个测试样本,首先找出 目前提出了许多对于KNN的改进算法,文献[1,2]提出 与待测样本距离最近的聚类中心所在的簇作为新的训练样本 一种从所有已知样本中选取测试样本的 个最近邻,然后建立 集,然后对新训练集建立分类模型进行分类。由于聚类后簇内 分类器进行分类的方法,提高了分类的性能。文献[3]提出了 样本的相似度高,所以该算法能达到既减少计算量,又能保持 收稿日期:2014·n-30;修回日期:2015—01—23 基金项目:国家自然科学基金资助项目(61450001,61263035,61573270);国家“863”计 划资助项目(2012AA011005);国家“973”计划资助项目(2013CB329404);广西自然科学基金资助项目(2012GxNsFGA0600o4,2014jjAA70175. 2O15GxNsFAA139306,20l5GxNsFCB13901);广西八桂创新团队、广西百人计划和广西高校科学技术研究重点项目(2013ZD04) 作者简介:苏毅娟(1976一),女,广西桂林人,副教授,主要研究方向为机器学习和数据挖掘;邓振云(1991.),男(通信作者),江西南昌人,硕士, 主要研究方向为机器学习和数据挖掘(597277287@qq.corn);程德波(1990一),男,江西丰城人,硕士,主要研究方向为数据挖掘和机器学习;宗鸣 (1990-),男,江苏泰州人,硕士,主要研究方向为机器学习和数据挖掘. 计算机应用研究 较高分类准确率的目的。 第33卷 复杂度的算法非常适合在大数据方面的应用。最后,给出LSC 算法的具体步骤,如下所示: 1 基于聚类的KNN改进算法 本文算法包括两个过程,即训练过程和测试过程。训练过 程主要选取适用的聚类算法对大数据样本进行分类;测试过程 算法I LSC算法 输入:n个数据点 , :,…, 输出:k个子簇。 通过K—means选取P个界标点; 根据式(1)投影原始数据X到界标矩阵,得到原始矩阵的表示lZERp ; 根据矩阵Z,计算ZZr的前k个特征向量 ; 根据式(4)计算特征向量8; 运用K·means对特征向量8进行最终的聚类,并输出k个子簇。 R 以及聚类个数k。 主要是对测试样本在它最近的簇运行KNN算法。 1.1 训练过程 聚类是数据分析中最基本的一种技术,它在数据挖掘、机 器学习、模式识别方面都得到广泛应用。所谓聚类就是将数据 1.2测试过程 对象分组成多个类和簇的过程。其中,聚类所生成的簇包含簇 内样本相似性高和簇之间差异性大两个性质。 目前的聚类方法有很多,如基于划分的K—means算法、基 于层次的BIRCH算法 和基于密度的DBSCAN算法H 等。 但是面临高维大样本数据时,常见的聚类算法将在时间复杂度 本文在采用LSC算法得到k个子簇并求出k个聚类中心 后,找出距离待测样本最近的聚类中心所在的子簇,将其作为 新的训练样本。由于通过LSC聚类得到的子簇中的样本都是 彼此相似的,所以在选定的子簇中进行KNN分类可以充分保 证分类的准确率。最后,给出基于LSC聚类的KNN改进算法 的具体步骤,如下所示: 算法2 LC—KNN算法 方面受到极大挑战。因此,对高维大样本数据进行聚类需要满 足一些条件:复杂度低,最好是线性的,如文献[16,17]。为 此,本文采用了文献[18]提出的聚类算法,即基于界标的谱聚 类(1andmark.based spectral e ̄uster/ng,LSC)算法,该算法主要是 输人:数据集。 输出:待测样本类标签的预测值。 使用LSC聚类方法对训练样本进行聚类,得到m个聚类中心C , C2,C3,…,C ; 选取P(P<<n)个具有代表性的点作为界标点,并将这P个界 标点进行线性组合以替代原始数据。常见的谱聚类算法 通 常用所有样本表达每个数据,这种方法大大降低了相似矩阵的 复杂度,即从二次降到了一次,从而也顺带把特征根求解的复 杂度降低到了线性 。 计算待测样本y与所有聚类中心的距离D(Y,C ),将与之距离最 近的聚类中心所在的簇作为新的训练样本,即NewXi=min{D(Y,c )} i:1,2,·一,m; LSC算法通过“压缩”原始数据找出一组基向量去代表每 在新训练样本NewX 中对待测样本进行KNN分类,得到待测样本 Y的k个最近邻,并通过投票确定其类标签的预测值class 。 个数据点,即找出P个具有代表的界标点。常见的选取界标点 的方法有随机选取法和K-means聚类。随机选取法即随机选 通过算法2可知,当聚类的个数较多,即m较大时,新的 训练样本NewX 的样本数将远小于原始样本数,可以很容易 取界标点;而K-means聚类算法通过简单重复算法几次(通常 低于10次),把得到的聚类中心作为界标点。本文重复K— 达到大幅度减少KNN的计算量 0 、提高分类速度的目的。 但是随着m的增大,聚类的开销也会同时增加,且新训练样本 NewX 中的样本数将会逐渐减小,这很有可能会导致分类准确 率的下降。为了避免这种情况,聚类的个数m需要设置在一 个比较合理的数值。 极端情况下,假定令m为样本个数时,则为1NN算法,该 means聚类算法10次,把得到的聚类中心作为界标点。 把每个界标点当做一个向量组成界标矩阵U,LSC算法用 得到的P个界标点表示所有的原始数据点x=[ R ,即找出X在界标矩阵上的投影Zc Kh( ,ui) ... ( ) ”, ] … ( J 算法分类的效率较高,但当训练样本分布比较集中时,则很有 可能导致分类准确率降低;而令m=1时,则为经典的KNN算 法。因此,常见K最近邻算法是本文算法的一种特例。通过 以上分析可知,聚类的簇的个数m越大,KNN分类需要扫描的 样本数也就越少,运行速度越快。但是考虑到样本集为大数 其中: ,是矩阵U的第 个列向量,U, )是ca 。的r个最近邻界 标组成的U的子矩阵。易知,矩阵Z的运行时间为0(pmn)。 接着对其进行谱聚类分析,首先构造图矩阵Wo W: ^ (2) 据,如果m较小,簇中样本数依然很大,不能在内存(数据空 间)中运行。因此,假设程序运行占用的总内存为M,计算机 其中:Z=DI1 Z,D是Z中行向量的和,则矩阵W即为一个单 ^ 系统内存为眠,样本集中最小类样本的个数为 ,那么m的 取值范围可表示为rM/Mo<m< 。 在确定新训练样本NewX 、对测试样本选取k个最近邻过 程中, 值是非常重要的参数之一。文献[24]建议k= (n> 100),n是测试样本的个数,但这种取法通常不能得到满意的 结果,并且该想法也没有理论保证。 由于本文提出的基于LSC 方法得到的子簇NewX 中样本之间都是相关的,考虑到在大 数据中需要减少KNN的计算量,所以k值的选取不宜过大,在 保持较高分类准确率的情况下,k值的选取应尽可能小。通过 实验发现,当 =1、2时,分类的结果较优。 位矩阵『o当得到单位图矩阵w后,通过奇异值分解计算Z的 特征向量如下: 2=A 日T^ ^^ (3) 易知,左奇异向量A:[。 .-,0 ]∈ 为矩阵zZr前k ^ ^ 个特征向量,右奇异向量8=[b ,…,b ]e R 为矩阵 Z的 ^ ^ 特征向量。ca于矩阵W= Z为P×P维,可知向量A的计算 时间为0(P ),而特征向量8的计算时间则可通过下式得出: :2-1fllT (4) 特征向量B的总时间为O(p +p2n)[zlI。由于P<<n,所 1.3图例说明 以当选取特征向量B进行K-means聚类时,算法运行的总时间 则由0(.rt。)降为O(p ),算法的效率得到明显的提高。这种低 KNN分类算法虽然简单、有效且准确率高,但是缺点也很 明显,其时间复杂度几乎与样本数成正比。这是因为KNN算法 第4期 苏毅娟,等:大数据下的快速KNN分类算法 ·1005· 是一种懒惰的基于实例的学习方法,每次在寻找待测样本的k 表3两种算法在mnist数据集上的对比 个最近邻时,都需要计算其与所有训练样本的距离,当训练样本 较大时,分类的时间也成正比增加。考虑到目前KNN分类都是 在数据空间中进行,在样本为大数据晴况下要扫描数据集(或者 从磁盘/内存中读取)一遍几乎不可能。为了解决这个问题,本 文将样本集分成多个较小的块(保证每个块都能够在内存中运 行),并将具有代表性的块作为新的训练样本进行KNN分类。 如图1所示,对样本集进行聚类得到三个聚类中心,分别计算测 试样本与三个聚类中心的距离。可知测试样本1距离簇1的聚 类中心最近,因此本算法将簇1作为样本1的新的训练样本;而 对于测试样本2,其最近邻样本中虽然包含簇2、簇3的样本,但 是距离最近的聚类中心为簇3,所以将簇3作为新的测试集。考 虑到仅将簇3作为新的训练样本可能会影响分类准确率,但通 表4两种算法在gisette数据集上的对比 过LSC算法得到的簇内样本之间具有较高的相似性,簇簇之间 样本差异性大,所以将簇3作为新的训练样本集进行KNN分类 时,依旧能够保持较高的分类准确率。 辩荔熬 1 1 / R1. 翳1 2 2 2 3- 3 ̄ 图1改进算法中测试样本选择训练样本集的过程 2实验设计 为了验证算法的有效性,本文通过MATLAB编程实现本 表5两种算法在letter数据集上的对比 文算法,并在Win7系统下的MATLAB 7.1软件上进行实验。 本文以分类准确率和时间作为评价指标,对随机分块KNN算 法、基于LSC的KNN改进算法以及经典KNN算法进行对比。 实验所用数据来源于LIBSVM和UCI数据集,数据集的基本信 息如表1所示。 表1数据集基本信息 No数据集样本数属性数类数 No数据集样本数属性数类数 1 usps 9 298 256 10 4 letter 2O 0()o l6 26 2 mnist 70 000 780 10 5 pendigits 10 992 16 10 3 gisette 7 000 5 000 2 6 satimage 6 435 36 6 2.1分簇数m的确定 改进算法中m是非常重要的参数之一。为了确定参数 表6两种算法在pendigits数据集上的对比 m,本文对随机分块KNN算法和本文改进算法在六个数据集 上分别重复10次,实验结果不但报告每次实验的结果而且报 告10次结果的均值和方差。实验结果如表2~7所示。 表2两种算法在usps数据集上的对比 通过表2—7可知,随着分块数m的增加,两种算法的分 类速度逐渐变快,但相应的分类准确率却逐渐下降。考虑到两 种算法都属于近似算法,如果分类的准确率明显低于经典 KNN算法,那么在大数据分类中将会出现很大的误分率,这显 ·1006· 计算机应用研究 第33卷 然是不可取的。此外,从表2—7可知,在分类时间相近的情况 O 0 O k值的选取应尽可能小。根据图2所示,本文算法在satimage 料髂 下,基于LSC的KNN算法的分类准确率明显高于随机分块的 KNN算法,且从表8中可以发现,其分类准确率更加接近经典 数据集上k=3时可以取到0.8986,高于k=1时的准确率,但 是在k=1时,本文算法的实验结果已经优于KNN。因此,本 KNN算法。 表7两种算法在satimage数据集上的对比 依据上文分析可知,聚类分簇的个数m的大小同样应该 是在保证所有子簇都能在内存中运行的情况下,尽可能小。这 样既减小了聚类的时间,又提高了分类的速度,并且能保证具 有较高的分类准确率。根据表2~7的实验结果显示,在m= 10的情况下,分类的结果更优。 2.2 k值的确定 在算法2确定新的训练样本NewX 后,需利用KNN算法 对测试样本在NewX 中建立分类模型,其中对于k值的选取是 非常重要的步骤之一。考虑到经LSC聚类后簇内的样本已具 有很高的相似性,所以k值的选择无须太大。为了确定k的取 值,分别对表1中数据集进行了如下实验,结果如图2所示。 为了保证实验的准确性,实验结果中每个点都是10次结果的 均值。 0 0 槲0 褂0 器0 .曙 0 0 ;I《}《 0 0 0 O 0 0 篓 蒙 。 0 O O 瞄 膛 (e)pendigits dataset (f)satimage dataset 图2六个数据集分别在不同 值时的分类准确率 从图2中曲线可知,随着k值增加,分类准确率总体呈下 降趋势,这是因为簇内样本已经具有了很高的相似性,如果k 值选取得过大,且待分类样本又属于训练集中包含数较少的 类,那么在选择 个最近邻时,实际上并不相似的数据就会被 包含进来,从而造成噪声导致分类效果降低,同时也增加了 KNN算法的计算量。因此,在分类准确率保持较高的情况下, 文统一选取 :1。 2.3三种算法的·眭能比较 本次实验在分块(簇)数m=10、k=1的情况下,以准确率 和时间为评价指标,对三种算法进行对比实验,实验结果如表 8所示。 表8三种算法的性能比较 由于改进算法为近似算法,通过表8可以看出,该算法分 类准确率低于经典KNN算法1%一2.4%,但是样本数据足够 大时,分类的速度接近于经典KNN算法的7—9倍(接近分块 数)。而随机分块算法虽然分类速度略高于本文算法,但分类 准确率较低。通过上述实验可知,使用基于LSC的KNN改进 算法,能在保持分类准确率较高的情况下,大幅度提高分类的 速度,使其能够在大数据中得到应用。 3结束语 本文针对经典KNN算法难以在大数据样本中应用的问 题,提出了一种基于LSC的KNN改进算法。该算法针对KNN 没有训练过程的特点,创新地引入了一个训练过程,即通过聚 类技术找出了远小于原始样本集的新的训练样本集,极大地减 少了KNN算法的计算量,使其能够在大数据空间(内存)中运 行,并且该算法能够保持较高的分类准确率。但是本文算法仍 有一些地方需要改进,如新的训练集用于KNN分类时,其分类 准确率的高低依赖于聚类的效果,如果聚类的效果较好,那么 改进算法的分类准确率将完全有可能超过经典算法。 参考文献: [1]zhaIIg Shichao.KNN-CF approach:incorporating certainty factor to KNN classiifcation[J].IEEE Intelligent Informatics Bulletin,2010, 11(1):24—33. [2]zhaIIg Shichao,Zhang Chengqi,Yan Xiaowei.Post—mining:mainte- nance of association roles by weighting[J].Information Systems, 2003,28(7):691—707. [3]李荣陆,胡运发.基于密度的KNN文本分类器训练样本裁剪方法 [J].计算机研究与发展,2004,41(4):539—545. [4]张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法 [J].模式识别与人工智能,2009,22(6):936—940. [5]李杨,曾海泉,刘庆华,等.基于KNN的快速Web文档分类[J]. 小型微型计算机系统,2004,25(4):725—728. [6]Zhu Xiaofeng,Huang Zi,Yang Yang,et a1.Self-taught dimensionality reduction on the high—dimensional small—sized data[J].Pattern Reco- gnition,2013,46(1):215-229. [7]Zhu Xiaofeng,Huang Zi,Cui Jiangtao,et a1.Video-to—shot tag propa— gation by graph sparse group Lasso[J].IEEE Trans on Multimedia, 2013,15(3):633—646. (下转第1023页) 第4期 蔡国永,等:基于用户评论的信任预测方法研究 ·1023· 验证了该方法的有效性和可行性。本文的社会网络信任关系 预测方法对推荐及可视化等具有一定的应用价值,未来将进一 步挖掘用户的潜在属性特征从而丰富该模型。 参考文献: [1]Liu Guanfeng,Yan Wang,Orgun M A.Social context-aware trust International Conference on Knowledge Discovery and Data Mining. New York:ACM Press.2011:1100—1108. [10]Guha R V,Kumar R,Raghavan P,et a1.Propagation of tusrt and distrust『C]//Proc of the 13th International Conference on World Wide Web.New York:ACM Press。2004:403—412. [1 1]Borzymek P,Sydow M,Wierzbicki A.Enriching trust prediction model in social network with user rating similarity[C]//Proc of IEEE International Conference on Computational Aspects of Social Net— works.2009:40—47. network discovery in complex contextual socila networks[C]//Proe of National Conference on Artiifcial Intelligence.2012:101—107. [2]Kamvar S D,Schlosser M T,Gaeria—Molina H.The eigentrust algo- rithm for reputation management in P2P networks[C]//Prco of the 12th International Conference on World Wide Web.New York:ACM Press,2003:640-651. [12]Xiang Rongjing,Neville J,Rogati M.Modehng relationship strength in online socila networks[C]//Pree of the 19th International Confe— rence on World Wid6 Web.New York:ACM Press.2O10:981.990: [3]Ugur K,Golbeck J.Sunny:a new algorithm for trust inference in so— cial networks using probabilistic confidence models[C]//Proc of Na- tional Conference Oil AriftiCil Iantelligence.2007:1377—1382. [13]Tang Jiling,GaaD Huiji,Hu Xia,et a1.Exploiting homophily effect for trust prediction[C]//Proc of the 6th ACM International Confe. rence on Web Search and Data Mining.New York:ACM Press。2013: 53.62. [4]Nikolay K,Theme A.Trust prediction from user—item ratings[J]. Social Network Analysis and Mining,2013,3(3):749·759. [14]Zhang Yu,Tong Yu.Mining trust relationships from olnine socila net. works[J].Journal of Computer Science and Technology,2012, 27(3):492—505. [5]Wanita S,Nepal S,Paris C.A survey oftrust in socila networks[J]. ACM Computing Surveys,2013,45(4):Article 47. [6]Oh H K,Kim J W,Kim S W.A probability-based trust prediction model using trust—message passing[C]//Pmc of the 22nd Internatio— nal Conference on World Wide Web Companion.2013:161—162. [15]Cai Guoyong,Lyu Rui,Tang Jiliang,et a1.Temporla dynamics in socila trust prediction[J].Wuhan University Journal of Nature Science,2014,19(5):369-378. [7]Liu Haifeng,Lim E P,Lauw H W,et a1.Predicting trusts among [16]Xin Pan,Deng Guishi,Lju Jinguao.Weihtsed bipartite network nda personalized recommendation[J].Physics Procedia,2010,3(5): 1867—1876. user8 of online communities:an epinions case study[C]//Prc oof the 9th ACM Conference on Electronic Commerce.New York:ACM Press,2008:310—319. [17]Liu Jinguo,Zhou TaD,Che Haang’an,et a1.Effects of high-order correlations on personalized recommendations for bipartite networks [8]Kiynaa Z,Ashale A.Mining trust and disturst relationships in social Web applications[C]//Prco of IEEE Intenartional Cofnerence Oil In— telligent Computer Communication and Processing.[S.1.]:IEEE Press,2010:73—78. [J].Physica A:Statistical Mechanics and its Applications, 2010,389(4):881—886. [18]Zhu Yuxiao,Lyu Linyuan.Evaluation metircs for recommender sys- [9]Wang Dashun,Pedreschi D,Song Chaoming,et a1.Human mobility, tems[J].Journal of Universiyt of Electronic Science and Tech- nology of China,2012,41(2):163-t75. socila ties,and link prediction[C]//Proc of the 17th ACM SIGKDD (上接第1006页) [16]Ng A Y,Jordan M I,Weiss Y.On spectral clusteirng:analysis and an algoirthm[M]//Advance in Neural Ifnormation Processing Sys— terns.Cambridge:MIT Press;2002. [8]Zhu Xiaofeng,Huang Zi,Cheng Hong,et a1.Sparse hashing ofr fast multimedia search[J].ACM Trans on Information Systems,2013, 31(2):9. [17]Filippone M,Camastra F,Masulli F,et a1.A survey of kernel and [9]Zhu Xiaofeng,Huang Zi,Shen Hengtao,et a1.Dimensionality reduc— spectral mehtods for clusteirng[J].Patlem Recognition,2007,41 (1):176—190. tion by mixed kernel canonical corelation analysis[J].Panem Re- cognition,2012,45(8):3003—3016. [18]Chen Xinlei,Cai Deng.Large scale spectral clusteirng with land— mark-based representation[C]//Prc of tohe 25th AAAI Conference on Artiifcila Intelligence.[S。1.]:AAAI,2011:313—318. [10]Zhu Xiaofeng,Zhang Shichao,Jin Zhi,et a1.Missing value estima— tion ofr mixed—attirbute data sets[J].IEEE Trans on Knowledge Data Engineering,2011,23(1):110-121. [1 1] Zhao Yanehang, Zhang Shichao. Generalized dimension·reduction framework or fecent.rbiased time series analysis『J 1.IEEE Trans on [19]Zhu Xiaofeng,Zhang Lei,Huang Zi.A sparse embedding and lesat varincae encoding approach to hashing[J].IEEE Trans on Image Processing,2014,23(9):3737-3750. Knowledge and Data Engineering,2006,18(2):231—244. [20]Zhu Xiaofeng,Suk Heung·II,Shen Dinggng.A noavel matirx—simi— larity based loss function for joint regression and classiifcation in AD [12]Qin Yongsong,Zhang Shichao,Zhu Xiaofeng,et a1.Semi—parametric optimization ofr missing data imputation[J].Applied Intelligence, 2007,27(1):79—88. diagnosis[J].Neurolmage,2014,100(1O):91-105. [21]Liu Wei,He Junfeng,Chang Shihfu.Large graph constuctrion for scalable semi—supervised learning[C]//Prc of ohe 27tth International Conference on Machine Learning.2010. [13]Wu Xindong,Zhang Shicao.Synthesizing high—rfequency rules from diferent data sources[J].IEEE Trans on Knowledge and Date Engineering,2003,15(2):353-367. [22]Wu Xindong,Zhang Chengqi,Zhang Shichao.Eficfient mining of both positive and negative association rules[J].ACM Trans on In- formation Systems,2004,22(3):381—405. [14]Zhang Tin,Ramakarishnan R,Livny M.BIRCH:an efifcient data clustering method ofr veyr lrage datbaases[J].ACM SIGMOD Re- cord,1999,25(2):103·114. [23]Zhang Shichao,Qin Zhenxing,Ling C X。et a1.Missing is useful: missing values in c0st—sensitive decision ti s[J].1EEE Trans on KnowIedge and Data Engineenng,2o05,17(12):1689—1693. [15]Ester M,Kriegel H P,Sander J,et a1.A densi ̄一based lagorithm for discoveirng clustem in lrage spatial databases with noise[C]//Proc of the 2nd International Conference on Knowladge Discovery and Data Mining.1996:274-287. [24] l u,shanna A.A neare8t neighbor bo0tst糟p f0r re8arnpling hydro- l0gic time series[J].Water Resource Research,1996,32(3): 679.693.