您的当前位置:首页正文

高维少样本数据的特征压缩

来源:个人技术集锦
ComputerEngineeringandApplications计算机工程与应用2009,45(36)165

高维少样本数据的特征压缩

2

游文杰1,,吉国力1,袁明顺2

2,YOUWen-jie1,JIGuo-li1,YUANMing-shun2

福建厦门3610051.厦门大学自动化系,

福建福清3503002.福建师范大学福清分校,

1.DepartmentofAutomation,XiamenUniversity,Xiamen,Fujian361005,China

2.FuqingBranch,FujianNormalUniversity,Fuqing,Fujian350300,ChinaE-mail:glji@xmu.edu.cn

YOUWen-jie,JIGuo-li,YUANMing-shun.Featurereductiononhigh-dimensionalsmall-sampledata.ComputerEngineering

(36):andApplications,2009,45165-169.(GSS)isdefined.Abstract:Inviewofthecharacteristicsofsmallsampleandhighdimensionaldata,GeneralizedSmallSamples

(dimensionalityextraction)andfeatureselection(dimensionalityselection)ItreducesinformationfeatureofGSS:featureextraction.(PCA)andsupervisedfeatureextractionbasedonFirstly,unsupervisedfeatureextractionbasedonPrincipalComponentAnalysis

(PLS)areintroduced.Secondly,analyzingthestructureoffirstPC,itpresentsnewglobalPCA-basedandPLS-PartialLeastSquares

(PLS-RFE)isrealized.Finally,basedfeatureselectionapproaches,inadditionrecursivefeatureeliminationonPLStheapproachesareappliedtotheclassificationofMITAML/ALL,itperformsfeatureextractiononPCAandPLS,andfeatureselectioncompared

withPLS-RFE.TheinformationcompressionofGSSisrealized.

(PCA);(PLS);Keywords:generalizedsmallsample;PrincipalComponentAnalysisPartialLeastSquaresfeatureextraction;feature

selection

摘要:针对一类高维少样本数据的特点,给出了广义小样本概念,对广义小样本进行信息特征压缩:特征提取(降维)和特征选择(选维)。首先介绍基于主成分分析(PCA)的无监督与基于偏最小二乘(PLS)的有监督的特征提取方法;其次通过分析第一成分结构,提出基于PCA与PLS的新的全局特征选择方法,并进一步提出基于PLS的递归特征排除法(PLS-RFE);最后针对MITAML/

实现基于PCA与PLS的特征选择和特征提取,以及PLS-RFE特征选择与比较,达到广义小样本信息特征压缩ALL的分类问题,

的目的。关键词:广义小样本;主成分分析(PCA);偏最小二乘(PLS);特征提取;特征选择

文章编号:(2009)文献标识码:中图分类号:DOI:10.3778/j.issn.1002-8331.2009.36.0491002-833136-0165-05ATP391

1前言

在许多复杂问题中,样本量的绝对数并不算小,但其相对

于数据的维数或参数个数而言,样本量就相当小。如20世纪

该技术使得研究人员可以同时90年代DNA微阵列基因芯片,

测定成千上万个基因的表达水平,得到大量微阵列数据,该数据的特点是样本容量较小,而变量数(基因)非常多。再如,互联网的快速发展,网上出现大量文档数据,自动文本分类也成为处理海量数据的不可或缺的关键技术,其中对使用向量空间模型的分类器的最主要困难是高维的特征空间。这种高维小样本数据对随后的统计分析工作带来了前所未有的困难。

面对这种样本容量小而特征变量数非常多的高维数据,如何建立有效数学模型是一件非常困难的挑战。相对特征变量数而言,这种样本容量数显得非常小的数据,将其定义为广义小

样本。所谓广义小样本,是指一类样本容量n远小于其变量维

数p,表现为高维数据少样本容量情形。广义小样本是一相对概念,其实质是信息冗余与高噪声,其建模方法的有效性体现在小样本数据潜在信息的充分挖掘,在最大化数据有用信息量的情况下去除冗余与噪声。目前,在数据挖掘中还没有某种方法能普遍适用于各种特点的数据,许多挖掘算法在广义小样本时效率下降甚至失效。构造有效的信息特征压缩方法是广义小样本的一个研究方向。针对广义小样本数据,有两种方法进行信息特征压缩:特征抽取(降维)和特征选择(选维)。针对高维少样本数据的信息特征压缩问题,为加快特征选择过程,常根据单变量检验统计量的值进行排序(Ranking),如

这种操作可能存在一种风险:忽t-检验或信噪比及其p值[1-4],

略了特征间相关性及其非线性性。更为精确的方法是要考虑特

基金项目:高校博士点专项科研基金(No.20070384003);福建省教育厅科技项目(No.JB08244)。

作者简介:游文杰(1974-),男,讲师,主要研究方向:统计计算;吉国力(1960-),男,教授,博士生导师,主要研究方向:系统工程理论方法与应用、

生物信息学等;袁明顺(1979-),男,硕士,主要研究方向:最优化理论与算法设计。

收稿日期:2009-08-24

修回日期:2009-10-09

1662009,45(36)ComputerEngineeringandApplications计算机工程与应用

以及Y被t1解释后的残余信息进行第二次的潜变量t2的提取。如此反复,直至达到满足精度要求。设n个样本p维指标X=[X1,…,其X2,Xp]与预测变量Y,优化模型为:

≤≤≤≤≤≤Σ≤≤≤≤≤≤

征间的联合分布,即同时考虑所有的特征,允许检测那些具有较小主效应,但存在有较强交互效应的特征。该文给出了广义小样本概念,介绍了基于主成分分析(PCA)的无监督特征提取)的有监督特征提取两方法;通过分析与基于偏最小二乘(PLS

第一成分结构提出基于PCA与PLS的新的全局特征选择法,

[5-6])思想,并进一步提出基于PLS的递借鉴递归特征排除(RFE

归特征排除法(PLS-RFE);最后,在数据集上实现基于PCA与

(Xwi,maxcovYc)i

s.t.wi′wi=1;ci′ci=1wi′ΣXwj=0

实现广义小样本信息特征压缩。PLS的特征抽取和特征选择,

2原理方法

(PCA)2.1主成分分析

它以较少的潜变PCA是一种重要的无监督特征提取方法。

量(综合变量)去解释原有数据X中大部分变异,将相关性较强的原变量X转化为互相正交的潜变量T,并从中选取较原变量个数少且能解释大量变异信息的几个新变量(降维),即所谓

使得在误差的主成分。其目标是在低维子空间表示高维数据,

主成分分平方和的意义下低维表示能够最好地描述原始数据。

析是构造原随机变量的一系列线性组合,使各线性组合不相关,且最大可能地包含原变量的信息,即方差最大。

设有n个样本,每一样本观测p个指标:…,X=[X1,X2,Xp],使X的线性组合T=XW,

(Xw)maxvar≤i

≤≤≤s.t.wi′wi=1≤≤≤

wi′ΣXwj=0≤

1≤i称线性组合T=XW为主成分,其中ΣX=X′X。可以证明[7-8]以上优化问题的解wi满足:

(λiIp-Σ)wi=0

(t)ΣX=X′Xλi=varλ1≥λ2≥…≥λpi即优化问题的解wi为:ΣX=X′X的特征值λi所对应的特征向量也即权重向量W(weighing)可通过计算协方差阵ΣX的特征wi。

向量得到,λi表示第i个主成分的方差,wi表示第i个主轴(weighing)。主成分分析的目的之一是简化数据结构,在实际应用中一般选取m(m定义1(解释贡献率、累计解释贡献率)称λk/Σλi为主成分tk的解释贡献率;

i=1p

≤≤≤

ci′ΣYcj=0

其中线性组合ti=Xwi为第i潜变量,ΣX=X′X,ΣY=Y′Y。

可以证明[9-10]以上优化问题的解(wi,c)i为:

ΣΣ最大特征值对应特征向量,i=1Σ(I-P)Σ(I-P)Σ最大特征值对应特征向量,i>1Σw,i=1c=Σ(I-P)Σw,i>1wi=

i

XYYX

X

XY

Y

YX

YX

iY

YX

i

其中,

TT

(ΣXW)()()(ΣXW)PX=[ΣXWΣXW]-1

TT

(ΣYC)()()(ΣYC)PY=[ΣYCΣYC]-1

(wij),(cij)W=C=

在PLS计算中所提取成分th,一面尽可能多地代表X的变异信息;另一面又尽可能与Y相关联,解释Y中的信息。为测量th对X和Y的解释能力,定义th的各种解释能力如下。其中(rxi,x)j表示两变量间相关系数。

定义2(变异解释量、累计变异解释量)定义th对X的变异解释能力:

2

称Rd(xj;))为成分th对自变量xj的变异解释量;th=r(xj,th

1称Rd(X;)th=

p

(x;为成分tt)ΣRd

j

h

j=1

m

p

h

对X的变异解释量;

(X;…,)(X;)为成分t1,…,称Rdt1,t2,tm=ΣRdtht2,tm对X

h=1

的累计变异解释量;

称Rd(xj;…,)(xj;)为成分t1,…,t1,t2,tm=ΣRdtht2,tm对xj

h=1m

的累计变异解释量。

同理有,定义th对Y的变异解释能力:

2

称Rd(yk;))为成分th对自变量yk的变异解释量;th=r(yk,th

1称Rd(Y;)th=

q

(y;为成分tt)ΣRd

k

h

k=1

m

q

h

对Y的变异解释量;

称Σλk/Σλi为主成分t1,…,)的累计解释贡献率。t2,t(mmk=1

i=1

mp

称Rd(Y;…,)(Y;)为成分t1,…,t1,t2,tm=ΣRdtht2,tm对Y

h=1

累计解释贡献率刻画出m个主成分提取X1,…,X2,Xp的解

释信息量。

的累计变异解释量;

称Rd(yk;…,)(yk;)为成分t1,…,t1,t2,tm=ΣRdtht2,tm对yk

h=1m

(PLS)2.2偏最小二乘

它通过主成分分析和综PLS是一种有监督特征提取方法。

合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量Y解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS的信息特征压缩,在对解释变量数据集X进行压缩的同时,顾及了与预测变量Y的相关程度,其压缩结果将更具有实际意义。

PLS在自变量集X中提取第一潜变量t1,t1尽可能多提取

同时在Y中提取第一潜变量u1使t1与u1的相X的变异信息;

若回归方程满关度最大;建立Y与t1的回归及X与t1的回归,

足精度要求,则算法结束。否则利用X被t1解释后的残余信息

的累计变异解释量。

3特征压缩

广义小样本数据的降维压缩方法:特征抽取(降维)和特征

选择(选维)。特征提取是将原始的特征空间投影到低维特征空间,投影后的潜在特征是原始特征的线性或者非线性组合,也即特征提取是要对原始的坐标系进行旋转,然后再选取若干重要的潜在特征,显然特征提取是一全局降维方法,当数据集是全局相关时效果较好。特征选择是通过一些标准的统计方法选择出对分类贡献最大的若干特征,它保持原数据主要特征基础

游文杰,吉国力,袁明顺:高维少样本数据的特征压缩

上将数据从高维转成低维,即从原始数据表中选择若干与任务

有关的显著特征而构成新的低维数据表,其优点是经特征选择后的数据表没有旋转,其结果易于解释。

2009,45(36)167

大。也即若只选取一个综合变量代替原始变量X,则t1是X的最优选择。第一成分t1对应于数据变异最大的方向,即t1是使数据信息损失最小、精度最高的一维综合变量。所以从w1系数符号上分析:系数绝对值较大,则表明该主成分主要综的大小、

合了绝对值大的特征变量,正号表示变量与主成分作用同向,则从负号表示原变量与主成分作用反向。若只选取第一成分,w1系数中选择分量绝对值大的特征变量,实现基于PCA的特

征选择。

3.2.2PLS特征选择

同理,由2.2节的分析知,(1)PLS建模中要求:t1和u1各自提取X与Y中尽可能多的变异信息;(2)t1和u1的相关性达到最大。也即若只选取一个潜变量代替原始变量X,则t1是X的最优选择。第一成分t1对应于数据集X变异尽可能大的方向,即t1是使数据集X信息损失尽可能小、精度尽可能高的一维系数绝对值较大,则综合潜变量。所以从w1系数的大小分析:

表明该成分主要综合了绝对值大的特征变量。若只选取第一成分,则从w1系数中选择分量绝对值大的特征变量,实现基于PLS的特征选择。

3.2.3PLS-RFE特征选择

实际问题中,通常只有少量的特征是真正的与目标信息(如类别)相关,而大部分特征是与目标信息无关的“噪音”。在对目标信息进行分析时,过多的“噪音”特征将干扰有用信息,使计算出来的特征权值失真,影响特征排序的准确性。这里借鉴递归特征排除(RFE)思想,提出基于PLS的递归特征排除法(RecursiveFeatureElimination),其步骤:(1)对特征PLS-RFE

集中的所有特征由3.2.2节中的PLS方法进行特征重要性排序(FeatureRanking),删除排列最后的特征;(2)余下特征重新由

再删除排列最后的特征;如此反复,直至保留特PLS方法计算,

征集中的k个特征,实现基于PLS-RFE的特征选择。

(降维)3.1特征提取

常用的特征提取方法有:

(1)主成分分析(PCA),它是一种重要的无监督统计分析

利用少数几个变量族的线性方法。它能将原始数据空间降维,

组合来解释高维变量的协方差结构,挑选最佳潜在特征子集,达到简化数据的目的。

(2)偏最小二乘法(PLS),它是一种有监督的统计分析方法。它通过主成分分析和综合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS的信息特征压缩,在对解释变量数据集进行压缩的同时,顾及了与预测变量的相关程度,其压缩结果将更具有实际意义。3.1.1PCA无监督特征提取

PCA的特征提取步骤:

以n×p(p>>n)矩阵X表示;步骤1标准化数据集,

步骤2计算数据阵X的前m个主轴w(…,),其2,mii=1,中m的选取满足Σλk/Σλi≥1-α,通常α取值满足1-α≥

k=1

i=1

m

p

0.85;

步骤3计算数据阵X在前m个主轴w(…,)上2,mii=1,的得分T=(tij)=,tij表示Xi在第j个主轴上的投影;

步骤4得分阵T代替原始阵X进行相应操作(如判别分类等),性能评价。

3.1.2PLS有监督特征提取

PLS的特征提取步骤:步骤1数据阵X以n×p(p>>n)表示,编码类别阵Y为n×

[3]

(k类别数);k

步骤2计算各成分贡献率及使用“舍一交叉”验证方法,计算预测残差平方和均方(PMPRESS)的最小值对应成分数,及PMPRESS对应Prob>0.1的最小成分数。同时结合所提取成分对各个变量(自变量与因变量)的解释能力以及累积解释能力,以确定成分数nfac;

(tij)=步骤3计算前nfac个成分对应的得分矩阵T=

,tij表示Xi在第j个主轴上的投影;

步骤4得分阵T代替原始阵X进行相应操作(如判别分类等),性能评价。

4实验分析

4.1数据

急性白血病是儿童肿瘤中发病率占第一位的疾病,在临床上,根据白血病细胞的形态及组织化学染色表现,可将此病分)为急性淋巴细胞性白血病(AcuteLymphoblasticLeukemia,ALL以及急性髓细胞性白血病(AcuteMyeloidLeukemia,两AML)大类。急性白血病不论何种细胞类型,其主要临床表现大致相似,且白血病的初期症状可能不明显,与一般常见儿童疾病症状类似。所以对急性淋巴细胞性白血病与急性髓细胞性白血病的准确识别,对急性白血病的早期诊断和针对性治疗以及提高生存率和生存质量都有很大的帮助。美国麻省理工学院的Golub[1]等人使用高密度寡核苷酸阵列检测了7129个基因表达水平,原始训练数据包含38个样本(27个ALL,);11个AML测试数据包含34个样本(20个ALL,)。Golub等人14个AML筛出50个基因,并根据38个训练样本构造了一个分类器,应用于34个新收集到的测试样本上,结果有29个样本被正确识别。

(选维)3.2特征选择

广义小样本问题的一个实际任务是:用最少的特征变量实

现最优的目标(如最大识别率)。也即选择数量少而携带信息量大的特征变量,一方面能最大地去除冗余与噪音,另一方面能大量减少实际操作成本。特征选择通常分为两个阶段,首先基于Filter方法从成千上万的特征中筛选出一定量的特征,以降低搜索空间,其次基于Wrapper方法进一步选出满足条件的显著特征子集。如何从众多特征中寻找一组最有效特征是问题的关键,以下提出基于PCA与PLS的新的全局特征选择方法,及基于PLS的递归特征排除法(PLS-RFE)。3.2.1PCA特征选择

由2.1节的分析,可得以下结论:设t1是X的第一主成分,

2

则t1与原始数据阵X的综合相关度最大,即Σρ(t1,X)j=λ1最

j=1p

4.2实验

这里选择支持向量机(SVMs)作为分类器,基于Matlab平

台的SVMs工具箱OSU_SVM3.00,下载地址:http://www.kernel-相应参数取默认值。methods.net/。选择线性核函数LinearSVC,

首先,对数据集的所有特征分别采用基于PCA/PLS特征提取

1682009,45(36)ComputerEngineeringandApplications计算机工程与应用

15

15

)X解释量(/%1050

1

2

3

4

5

6

7

8

9

10

贡献率()/%10

5

)Y解释量(/%0

10

20

30

50

0100累计解释()/%12345678910

累计贡献率()/%100

5050

X解释Y解释

0

5

(前10个)PLS成分数序号

10

0

1020

(前30个)PCA成分数序号

30

图1基于PCA/PLS的(累计)贡献/解释与成分数之间的关系(训练集)

(特征选择)选择前k(k=2,…,)个综合特征(信息特征);3,10

其次,将所选取的综合特征(信息特征)进行支持向量机(SVMs)分类训练;最后,分别在训练样本与测试样本上进行测试,计算识别率,并进行校验分析。4.2.1降维

并对所提取分别使用PCA与PLS方法来进行特征提取,

“潜变量”进行比较分析。步骤为:

(1)使用PCA(PLS)对数据集进行降维,以7129个基因表达水平为原始数据空间;

)结合各成分贡献率(图1)及SVMs正确识别率,选择恰(2当的“综合特征”数。

表1为全部(7129个)特征经特征提取后的前10个“潜变量”的SVMs识别结果:

表1

基于PCA/PLS的特征提取所选前10个“潜变量”的识别率

基于PCA的识别率训练集1.00001.00001.00001.00001.00001.00001.00001.00001.0000

测试集0.88240.85290.85290.82350.85290.85290.70590.76470.7647

支持向量(1,)2(2,)2(2,)3(4,)2(2,)4(3,)5(4,)3(3,)4(4,)4

基于PLS的识别率训练集0.86841.00001.00001.00001.00001.00001.00001.00001.0000

测试集

支持向量

)0.9706(12,11)0.9118(12,11)0.8824(13,11)0.9118(13,11)0.9118(13,11)0.9118(13,11)0.8824(16,11)0.8824(17,11)0.8824(14,11

别率明显优于PCA的识别率。

从图1中知,成分数为2时所对应PCA的变量变异解释

对应于PLS对原变量变异的解释:解释自原始信息达到30%;

变量变异23%,同时解释因变量91%的信息。结合表1结论可知,在众多特征(7129个)中只有少量的特征是真正的与样本

“噪音”。在图1类别相关,而大部分特征是与样本类别无关的

中明显看出基于PCA/PLS第一成分所携带的信息量最大,故可以第一成分所刻画的权值进行特征选择。4.2.2选维

所由2.2节的分析,第一成分携带原数据变异信息最大,

以从第一成分权值(载荷)进行特征选择,系数绝对值较大,则表明该特征在解释第一成分时更重要,也即在解释原数据时贡献大,如图2。

0.05载荷0-0.05

0

2000

特征数

4000

6000

成分数2345678910

(a)基于PCA的第一成分在7129个特征上的载荷

5载荷0-5-10

0

2000

特征数

4000

6000

×10-7

分类器:(OSU_SVM3.00),线注数据集:MITAML/ALL,SVMs

性核,参数默认。

经PCA与PLS特征提取后的前k个“综合特征”在SVMs

分类器的识别率如表1,在成分数为2时识别率最高:经PCA特征提取后的训练集与测试集识别率分别为100%与88.24%,而经PLS特征提取后的训练集与测试集识别率分别为86.84%与97.06%。这结论符合Nguyen[2-4]等提出的直接选取前3个综合特征的做法。并且当成分数增加时,基于PLS的测试样本识

(b)基于PLS的第一成分在7129个特征上的载荷图2第一成分上的载荷与特征变量之间的关系

以下就以基于PCA/PLS的第一成分权值进行特征选择。

具体步骤为:

(1)特征选择:基于PCA/PLS/PLS-RFE的特征选择方法进

游文杰,吉国力,袁明顺:高维少样本数据的特征压缩

表2基于PCA/PLS的特征选择所选前k个特征的识别率

基于PCA的特征选择

特征数234567891011121314157129

训练集()测试集()支持向量/%/%

71.186.886.886.881.692.192.1100100100100100100100100

58.873.588.285.347.161.879.485.388.285.373.591.279.479.497.1

(11,)10(5,)3)(4,4(4,)3(8,)2(7,)3(7,)4(4,)3(5,)3(4,)3)(4,4)(4,5(5,)5(5,)5(15,)7

基于PLS的特征选择

)测试集()支持向量训练集(/%/%

84.289.5100100100100100100100100100100100100100

85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1

(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7

2009,45(36)169

基于PLS-RFE的特征选择)测试集()支持向量训练集(/%/%

84.289.5100100100100100100100100100100100100100

85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1

(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7

注数据集:分类器:(OSU_SVM3.00),线性核,参数默认。MITAML/ALL,SVMs

行特征筛选。选择前k(k=2,…,)个特征。3,15

(2)分类器:以支持向量机为分类器进行分类,选择线性核函数LinearSVC,相应参数取默认值。

(3)计算识别率:分别在训练样本与测试样本上进行测试,计算识别率。结果如表2。

相比较于表1,显然在特征选择后PLS与PLS-RFE的识

也即在去除冗余与噪声后,分类器SVMs表别率已达到100%,

现更优。同时,从表2知基于PCA在选择13个特征时训练集

而基于PLS与PLS-RFE在全部识别,测试集识别达到91.2%;

选择9个与9个特征时训练集与测试集均全部正确识别。PLS与PLS-RFE方法的结果明显好于Golub等人的结果。

些不足,其在对解释变量X进行压缩时,顾及与预测变量Y的相关程度。

文章对主成分降维和偏最小二乘降维进行讨论,并尝试利用主成分和偏最小二乘进行选维操作,提出基于PCA与PLS的特征选择及PLS-RFE特征选择方法。并针对目前常用的基于单变量检验统计量的特征选择存在的不足,提出基于PCA与PLS的新的全局特征选择法,并借鉴递归特征排除(RFE)思想,提出基于PLS的递归特征排除法(PLS-RFE);最后在数据集上实现基于PCA与PLS的特征抽取和特征选择,实现广义小样本信息特征压缩。

4.3评价

由SVMs基于数据集MITAML/ALL进行特征选择与分类,分别采用留一校验(LOOCV)算法、(k-foldCV)k-折叉校验算法和保留法(holdout)来评价文中的方法。结果如表3,其中

(4-fold)进行PLS-RFE特征选择,平均选择6.41在k折叉法

个特征时训练与测试均100%识别,结果好于PLS的结果。在留一校验(LOOCV)法中,不论是PLS还是PLS-RFE均出现一个错分#66,这在Golub[1]等人的工作中同样错分了此样本,甚至有人[3]认为这些样本可能存在错误标记。

表3

特征选择算法

校验方法)留一法(72个样本

PLS

(4-fold)k折叉法

保留法(训练38个测试34个)

留一法(72个样本)

PLS-RFE

(4-fold)k折叉法

保留法(训练38个测试34个)

参考文献:

[1]GolubTR,SlonimDK,TamayoP,etal.Molecularclassificationof

cancer:Classdiscoveryandclasspredictionbygeneexpression(5439):1999,286531-537.monitoring[J].Science,[2]NguyenDV,RockeDM.Tumorclassificationbypartialleast

squaresusingmicroarraygeneexpressiondata[J].Bioinformatics,(1):2002,1839-50.

RockeDM.Multi-classcancerclassificationviapar-[3]NguyenDV,

tialleastsquareswithgeneexpressionprofiles[J].Bioinformatics,(9):2002,181216-1226.

[4]NguyenDV,RockeDM.Onpartialleastsquaresdimensionre-

ductionformicroarray-basedclassification:Asimulationstudy[J].(9):ComputationalStatistics&DataAnalysis,2004,46407-425.

WestonJ,BarnhillS,etal.Geneselectionforcancerclas-[5]GuyonI,

sificationusingsupportvectormachines[J].MachineLearning,2000,46(13):389-422.

李颖新,李建更,等.基于基因表达谱的肿瘤特异基因表达[6]阮晓钢,

模式研究[J].中国科学:(1):C辑,2006,3686-96.

北京大学出版社,[7]高惠璇.应用多元统计分析[M].北京:2005:265-277.[8]MasseyWF.Principalcomponentsregressioninexploratorystatisti-

calresearch[J].JournalofAmericanStatisticalAssociation,1965,60:234-246.[9]WoldS,RuheA,WoldH,etal.Thecollinearityprobleminlinear

)approachtogeneralizedthepartialleastsquares(PLSregression,inverses[J].JournalofStatisticsComputation,1984,5:735-743.

[10]LorberA,WangenL,KowalskiB.Atheoreticalfoundationforthe

PLSalgorithm[J].JournalofChemometrics,1987,1:19-31.

实验评价结果

(平均)选择特征数5.016.9595.016.419

误判数100100

备注误判样本#66随机50次表2误判样本#66随机50次表2

注训练与测试集100%识别时,平均选择最少的特征数。

5总结

在高维少样本数据的压缩中,PCA能有效概括原数据的结

构特征,其优点是数据压缩充分,生成综合特征数少。但其不足在于所选取主成分与预测变量Y无关,只针对解释变量X去寻找对其解释重要的成分,与预测变量Y相关性大却在解释变量X中所占比例小的成分有可能被删除。而PLS克服了这

因篇幅问题不能全部显示,请点此查看更多更全内容