大数据时代的数据挖掘技术与应用分析姚娜(山东理工职业技术学院,山东济宁272067)摘要院近年来,大数据技术在世界范围内得到了长足的发展,为数据挖掘技术的发展和应用创造了新的机遇,即将进入一个全新的、突破性的发展阶段,对云计算和数据挖掘技术进行更好的应用在大数据时代具有非常重要的意义。对大数据和数据挖掘技术的基本概念进行了简单的阐述,概括性地分析了数据挖掘技术的具体操作方法,并且对数据挖掘技术在大数据时代的发展方向和应用领域进行了合理的预测。关键词院大数据时代;数据挖掘技术;应用分析1概述中的需要了遥2援2援2复杂化根据不同的组织形式可以将数据区分为结构化数据大数据渊BigData冤也叫海量数据袁是基于计算机技术和互联网技术的飞速发展应运而生的一种独特的数据现象遥在现代人的日常生活和工作中袁每天都会不可避免地接触到计算机网络尧移动网络尧微信尧微博尧网购尧手机通信尧图片尧视频等网络科技产品袁从而产生海量的数据袁其速度之快完全超出想象遥如何对这些数据加以充分的利用从而为人类提供更好的服务尧创造更多的价值已经成为了一个重要的研究课题遥和非结构化数据遥其中袁结构化数据可以转化为二维表的形式袁具有一定的规律性袁存储在高校教务管理系统尧银行数据系统等数据库中遥视频尧音频尧图片等非结构化数据无法表达为预先定义的数据模型袁其增长速度远超结构化数据遥2援2援3快速化当下袁商业竞争呈现出越来越激烈的发展趋势袁对22.1定义大数据数据进行实时的分析和处理尧深度挖掘数据信息的内在价值以及在在商业活动中对大数据进行合理有效的应用能够在企业和组织的发展中发挥出非常积极的推动作用遥例如网络购物平台会自动分析买家的数据信息袁得出买家在购买某一件商品时通常会搭配购买的其他商品袁从而为买家提供商品推荐信息袁提高网购的便捷性和综合效益遥用常规软件工具无法在一定时间范围内进行捕捉尧管理和处理的数据集合被称为大数据袁为了对海量尧高增长率和多样化的信息资产进行更加强有力的决策尧观察和流程优化就需要对处理模式进行不断更新遥时至今日袁大数据已经发展成为人类最重要的生产要素之一袁完成了对每一个行业尧每一个业务职能领域的渗透遥大数据具有大量化尧多样化和快速化3大特征遥2.2大数据的特征2援2援1大量化大量化是指数据的容量大袁这些数据可能来源于电3数据挖掘技术大数据产生的速度随着互联网和计算机技术的发展和普及始终保持着高速增长的势头袁但大数据的价值主要体现在对这些数据信息进行有效的利用袁在于将海量数据信息经过挖掘和分析转换为有用的信息和知识之后发挥其真正的作用遥数据挖掘通俗的来讲就是从数据中发现知识袁将非凡的尧隐含地尧事先未知的尧具有潜在用途的人们感兴趣的模式或者知识从大规模的海量数据作者简介:姚娜渊1981-冤袁女袁讲师袁硕士袁研究方向院大数据尧三维造型设计尧影视后期制作等遥2019.12子邮件尧搜索引擎尧社交网站尧电子商务尧图片尧音频尧视频尧各种应用软件等遥在人们的日常生活中充斥着各种电子商务平台和社交网站袁它们每天都在产生海量的数据遥随着科技的发展和电子产品的更新换代袁大数据的正在以几何倍的速度快速增长这遥曾经用MB尧GB来测量数据信息的容量袁但现在TB尧PB尧EB尧ZB甚至YB都已经快要无法满足我们在数据测量127中抽取出来遥随着大数据在各个行业和领域应用得越来越广泛袁呈爆炸式增长的海量数据在各个领域的系统中大量存储袁在这种数据爆炸尧知识却相对匮乏的情况之下袁数据挖掘技术应运而成遥数据挖掘技术产生于数据库技术尧知识工程尧统计学尧机器学习尧人工智能等多个学科的交叉研究领域袁目前在交通尧保险尧电信尧银行尧零售等商业领域已经得到了广泛的应用4数据挖掘技术的研究内容遥数据挖掘的主要目标是数据中隐藏的两大类模式袁即描述性模式和预测性模式遥对当前数据中存在的事实进行规范性描述袁对当前数据的一般特性进行刻画属于典型的描述性模式遥将时间作为主要的参数袁根据历史和当前值对时间序列型数据的未来值进行预测则是典型的预测性模式遥4.1在不失去数据原有价值的基础上为特定的应用选择特性选择最小的属性子集袁去除冗余的和不相关的属性的过程就是特性选择遥在特性选择算法领域袁最小描述长度法应用最为广泛遥特性选择能够在建立分类模型前和预测模型之前对原始数据库进行预处理遥4.2在数据挖掘技术中特性抽取袁特性抽取是一种非常常用的方法袁它的本质是一个属性降维的过程遥通过应用主成分分析法尧因子分析法尧非负矩阵因子法等算法对数据的属性或者特性进行变换袁将原属性集通过线性合并成为一组更小尧更精的属性遥4.3数据变量之间根据数量本身的自然分布特性存在着聚类分析不同程度的亲疏关系被称为相似性袁将最相似的数据按照一定的准则通过使用划分聚类算法尧层次聚类算法尧密度聚类算法或者K-Means和K-Medoids经典算法等聚集成簇袁将数据划分成群组的过程就是聚类遥根据类似或相似的对象将物理或者抽象对象的集合划分为多个组别进行分类分析的方法被称为聚类分析遥聚类分析是一种无先前知识尧无监督的学习过程袁通过从数据对象中选取有意义的数据进行一个未知的类的划分遥聚类分析与分类的区别在于它无法获知对象的属性袁事物之间类聚的潜在规律需要通过聚类分析来取得遥聚类分析的目的就是依据相似度进行数据分类收1282019.12集袁非常广泛地应用于医学尧生物学尧心理学尧统计学尧数据识别尧市场销售尧机器智能等领域遥聚类分析根据隶属度的取值范围可以划分为硬聚类和模糊聚类遥硬聚类将对象划分到距离最近聚类的类袁一个样本只能属于一个类遥根据隶属度取值范围的大小差异进行分类的就是模糊聚类袁同一个样本可以被同时划分到多个类遥比较常见的聚类算法包括划分聚类算法尧网格聚类算法尧密度聚类算法尧层次聚类算法尧模型聚类算法等遥4.4自然形成的事物中不可避免地会存在各种关系关联分析袁当其中某一事物发生改变时其他事物可能会受此影响发生相应的改变遥通过事物之间存在的关联知识随事物之间存在的规律性进行挖掘的过程就是关联分析遥大量数据中项集之间的有趣关联或者相关关系就是关联规则袁在数据挖掘领域袁关联规则挖掘是研究最为广泛和活跃的方法之一遥最初提出关联规则挖掘时针对的是购物篮分析问题袁通过运用Apriori等算法能够发现交易数据库中不同商品之间的联系规则袁营销人员可以利用这种规律来制定营销策略遥4.5分类是指通过一些已知的属性数据对一个未知的属分类和预测性数据的可取值经过预先定义的尧未知的离散型数据进行推测遥推测的实现质量需要通过预先定义一个分类模型来提供保障遥问题预测主要可以划分为分类和数值预测两种类型袁分类就是对离散尧无序的标号进行预测袁预测是指建立连续值函数模型遥分类为数据挖掘工作的开展奠定了所需要的基础遥分类的学习过程需要在有监督的条件下进行袁类别划分应当在训练数据集发现准确描述的条件下开展遥贝叶斯尧遗传算法尧决策树尧粗糙集尧神经网路等都属于比较常见的分类算法遥分类和回归可以作为对未来规律进行预测的依据袁包括时间序列法尧局势外推法尧回归分析法等主要的预测方法遥4.6人工神经网络需要分析大批量复杂的数据人工神经网络袁模式抽取和趋势分析的实现过程对于人脑和计算机而言非常复杂袁必须以一个自学习的数学模型作为基础遥神经网络的学习过程由于指导都可以实现袁但输入到神经网络中的必须是数值型遥目前袁BP网络和RBF网络是数据挖(下转第152页)根据图1的结果可看出袁Roberts算子检测到的边缘比较细袁有些边缘信息缺失袁连续性不理想遥Prewitt和Sobel算子检测到的边缘相对连续一些袁但是线条稍微显粗袁出现了伪边缘遥LoG算子检测到的图像边缘在边缘定位上更加准确袁更连续袁边缘也较细袁但对噪声敏感遥以上4种算法均为灰度图像边缘检测的经典算法袁它们在处理上各有各的优势遥一阶算法较简单袁运算速度快袁而二阶算法相对于一阶算子袁运算相对复杂袁运行时间会长一些袁但二阶算子在边缘定位上更加准确袁边缘较细袁在对边缘精度要求较高的情况下袁可以考虑采用二阶算子进行边缘检测遥较困难遥原因主要在于院力这两者之间存在互相制约的不确定原则遥渊1冤实际图像都是含噪图像袁在检测精度和抗噪能渊2冤通常的边缘算子针对阶跃边缘定位效果好袁但随着数学形态学尧小波变换尧模糊理论尧神经网络尧遗传算法等研究方法的引入袁边缘检测技术仍需不断优化和完善遥参考文献[1]黄时杰,曾建华.图像边缘检测与分割的MATLAB35(09):47-49实现[J].赤峰学院学报(自然科学版),2019,是对于图像中多数存在的斜坡边缘袁检测效果并不佳遥4结语在实际的应用中袁边缘检测是图像处理中最基本也[2]唐亮,赵春红,等.基于边缘检测算子的图像边缘检测研究与应用[J].科技广场,2017,(06):22-25.研究[J].福建电脑,2018,34(09):13-15.北京院科学出版社,2015:30-36.[3]胡徐怡,等.基于改进Sobel算子的边缘检测算法[4]刘仁云,等.数字图像中边缘检测算法研究[M].是最困难的课题之一遥好的边缘检测算法要求能够检出有效边缘袁检测进度高袁抗噪能力强袁不漏掉实际的边缘袁也不虚报边缘袁并且计算量尽可能小遥在某些应用中袁还需要具有较高的定位精度袁实际操作起来往往比(上接第128页)掘中最常使用的神经网络遥4.7可视化技术可视化技术是一种借助图形尧图像尧动画等手段对应用条件遥6结语数据技术会随着时代的进步不断地进行自我完善并且发展出各种复杂的形式遥在对结构化数据进行数据挖掘的同时袁许多研究机构和研究人员会同时对空间数据尧多媒体数据尧时序数据和序列数据等开展数据挖掘和分析遥与此同时袁大数据的发展对于云计算的产生具有一定的促进作用袁以云计算为基础的数据挖掘也在悄然崛起遥参考文献[1]栗元龙.数据挖掘技术在软件工程中的应用探讨[J].数字通信世界,2019,(9):181.[2]李华,张井玲,刘婷婷.大数据时代下数据挖掘技132-133,136.操作尧引导挖掘和表达结果等进行形象指导的辅助技术袁广泛地应用于数据挖掘中遥可视化技术在解决数据挖掘中涉及到的比较复杂的数学方法和信息技术的表达形式方面具有非常良好的效果袁为客户理解和使用技术提供了方便袁在数据挖掘技术的推广和普及方面具有非常显著的作用遥5数据挖掘技术的应用数据挖掘技术能够从海量数据中筛选出有价值的数据信息并对其进行分析袁在企业管理尧教育尧科学研究等领域都得到了有效的应用遥数据挖掘技术能够为企业提供决策依据袁在产品制造和营销尧保险业务开展尧证券分析尧银行决策与管理尧电子商务客户识别等方面都取得了一定的成就遥数据挖掘技术在教学评价和教学信息管理方面具有显著的优势袁随着教育行业的发展袁在对教学信息和档案信息的规范性管理以及准确性的保障方面中得到了越来越广泛的应用遥在科学研究的过程中必然会产生大量复杂的信息袁正好符合数据挖掘技术的术的应用研究[J].现代信息科技,2019,3(13):[3]蔡萌萌,张巍巍,王泓霖.大数据时代的数据挖掘综述[J].价值工程,2019,38(5):155-157.全国流通经济,2017,(22).[4]李嘉昊.数据挖掘技术在经济统计中的应用[J].[5]裴海平.浅谈数据挖掘技术在管理信息系统中的应用[J].科教导刊-电子版渊上旬冤,2019,(4):277.1522019.12