维普资讯 http://www.cqvip.com 数据挖掘的从及其特点 ■朱建平张润楚 究内容之一,同时,也是其它诸如人工智 述的过程。利用一组数据泛化技术,如: 能、模式识别、人工神经元网络等学科的 属性删除、概念树搜索和其它数据汇总 重要研究内容,并且有丰富的结果和广 方法,其结果是一种泛化的关系数据,再 泛的应用。数据分类的方法很多,包括决 把这些结果转化成知识或其它表现形 策树方法、统计学方法、神经网络方法、 式。利用数据可视化大大扩展了数据的 最近邻方法等等。基于决策树的分类方 表达和理解能力,这是数据简约的一种 法在大规模数据库条件下的应用研究; 非常重要的技术,它正受刮日益, 泛的 }在较高的抽象层次分类中,M.Mehte等 重视。 人针对大型数据库提出了一种快速分类 需要强调的是,国外已开发出’。多 算法,称为QUEST中的超级学习算法 种关于数据挖掘的软件,例如:IBM公司 (SLIQ);分类与回归的管状领域研究、最 的“Intelligent Miner”和SAS公司的 近邻分类方法的改进等等。 “SAS Enterprise Miner”。就目前来看,网 (3)聚类规则研究。聚类规则是识别 站的数据挖掘、生物信息或基因的数据 一组数据对象的内在规则,从而将对象 挖掘及数据挖掘中的统计方法研究,将 分组,构成相似对象类,以导出数据的分 会成为数据挖掘理论与应用研究的热点 布规律,进一步说是试图去发现隐含在 和领域。一组混杂的数据对象的分类规则,这种 与国外相比,国内对数据挖掘与知 隐含分类规则的分类规则可能是非常难 识发现(MDKD)的研究稍晚,没有形成 }于理解的。近年,聚类开始在大型数据库 整体力量。1993年国家自然科学基金首 中得到研究,R.Ng和J.Han基于随机搜 次支持对该领域的研究项目。目前,国内 索以及统计学中的两个聚类算法PAM 的许多科研单位和高等院校竞相开展数 和CLARA,给出了一个适用于大型应用 据挖掘的基础理论及其应用研究。 的聚类算法:CLARANS。M.Ester等人针 随着DMKD研究逐步走向深入,人 对CLARANS算法的缺点,提出了改进 们越来越清楚地认识到,DMKD的研究 技术。通过引入更为有效的空间数据库 主要有3个技术支柱,即数据库、人工智 存取算法,如R一树,来提升CLARANS 能和统计学。在这里我们应该清楚地认 算法的性能。T.Zhang等人则提出了另一 识到,统计学是最活跃的学科之一,它在 一 种聚类算法:BIRCH,这是一种很好的聚 计算机发明之前就诞生了,迄今已有几 类算法,具有很好的聚类品质和对阶数 百年的发展历史?如今相当强大有效的 的不敏感性。 统计方法和工具,已成为信息咨询业的 (4)数据泛化、简约和特征提取研 基础。然而,统计学和数据库技术结合得 究。数据泛化就是为了数据便于理解和 并不算快,就当前的数据挖掘软件包而 掌握,对包含过多具体信息数据库中的 言,其统计分析过程包括:决策树推断、 原始字段,将其具体的概念一般化到一 规则推断、最近邻方法、聚类方法、联合 个较高的抽象层次的过程;简约则是采 规则、特征提取、可视化,另外,有些还包 用图表、关联规则和可视化等技术得到 括:神经网络、bayesian belief网络、遗传 数据子集的细致描述;特征提取则是从 算法、自组织图、神经模糊系统,几乎所 组数据中提取出关于这些数据的特征 有软件都不包括:假设检验、实验设计、 一式,这些特征式表达了数据集的一般特 响应曲面模型,ANOVA、MANOVA、ete.、 征。这些过程都是寻找数据的一般化描 线性回归、判别分析、对数 归、广义线 塾 ; 维普资讯 http://www.cqvip.com 似乎与统汁学的关系不大 但是,随 处理相关的新方法.并没有冠j一“数据挖 性模型、正则卞H天性、主成分分析、因子 点,实质上在完成着数据挖掘的任 分析、相应分析一为此,近几年来在国外 着数据挖掘技术的发展,人们逐渐地开 掘”一词,ojection pursuit)就 引起了数据挖掘Lj统计学关系的讨论。 始认识到数据挖掘中有许多工作可以由 务 投影寻踪方法(pr现在我们可以清楚地知道,在数据挖掘 统计方法来完成,并且实现数据挖掘的 是一个很好的例证,目前,PP方法已经 应用过程中,将会遇到超大规模数据库 主要任务,即分类、估值、预测、关联分 在国际统计界引起了广泛的兴趣,受到 和高维数据问题、函数数据的分析问题、 析、聚类和描述等.都离不于F统计技术。 了普遍的重视 我们可以从PP方法的基 数据丢失问题、变化的数据和知识问题 我们嘘该明确地认识到,统计学应该随 本思想中看到统计方法在数据挖掘中强 等。这砦问题的出现对数据挖掘技术提 时地关注数据分析,哪里有数据,哪里就 有力的作用。出了严峻的挑战,使人f『J有r从数据查 应该有统计分析?统计学方法在数据挖 我们要逐渐地加强统计学对信息科 询到知识发现、从数据演绎到数据归纳 掘科学中发挥着重要作用,是数据挖掘 学的影响,促使别的领域的同事们了解 的要求,这样,在DMKD这个结合点上 研究的重要途径之一,而不是将它全部 统计学的价值和重要性,扩大统计学理 统计学就有了新的生命力 关系 甩给计算机科学家来研究:数据挖掘需 论研究和实际应用的市场,保持统计学 为数据挖掘和知识发现的结果起到意想 (作者单位/南开大学数学抖学学院) (责任编辑/刘智伟) 二、数据挖掘的特点及与统计学的 要统计方法,统计方法的恰当应用将会 的健康发展和生命力 尽管数据挖掘采用了分类和归纳这 不到的效果: 些典型的统计方法,它仍然具有自己显 著的特点? 第一、模型复杂性 在建模上数据挖 掘的重点大多放在“学习”上,对模型的 复杂性和需要的计算量较为关注,而很 少放在大样本的渐进推论上。数据挖掘 技术有能力对复杂的数据关系进行建 模,更适应于解决复杂的问题。 第二、问题大型性 数据挖掘所涉及 到的数据集合远远大于统计分析研究的 数据对象。相对于古典统计学而言,数据 挖掘则是从实际的海量数据源中抽取知 识,这些海量数据源通常是一些大型数 据库。由于数据挖掘使用的数据直接来 自数据库,数据的组织形式、数据规模都 具有依赖数据库的特点,数据挖掘处理 的数据量非常巨大,数据的完整性、一致 性和正确性都难以保证。所以,数据挖掘 在统计学的历史上,有许多与数据 算法的效率、有效性和可扩充性都显得 至关重要。 第三、变量的离散性一在实践中,涉 及到连续和离散变量的数据集是非常普 遍的,统计学中的大多数变量分析方法 是设计为连续变量模型的,但许多数据 挖掘方法适合离散变量的分析。实际中, 一些基于规则的方法只能使用离散变 第四、评价标准的有效性 在传统的 量,需要将连续变量离散化j 数据分析方法中,评判一个方法的好环 标准是优良 ,在什么范围内,按什么标 准,可以证明它是最优的,在一些情况 下,最优解还有明确的表达式。面对数据 挖掘算法,要论证什么算法是最优的,困 难是非常大的,在此评价的标准从优良 性转向有效性。 虽然数据挖掘所反应出的这些特 魏 ≯