您的当前位置:首页正文

大数据是什么?

2023-07-09 来源:个人技术集锦
大数据是什么?

大数据的风暴从何时开始刮起,这一点也许大多数人都没有弄清楚。但现在要是询问是什么在改变着21世纪,恐怕十之八九的人会异口同声地告诉你:大数据。随着其自身的几次更新,人们也越来越认识到他的力量。根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。

对于大数据的定义现在没有什么统一的定论,但大数据领域里的几乎人人都同意一点:大数据不仅仅是指更多资料而已。下面的七个有关大数据的看法只是众多观点中的一部分,只希望能给各位打开一丝灵光。

NO.1 大数据的 3Vs 定义

这是目前为止最受推崇且最广为人知的说法。3Vs 由 Gartner 的分析师 Doug Laney 最早在 2001 年时提出,分别代表资料量 Volume、资料传输速度 Velocity、资料类型 Variety。从那之后,便有人在 3Vs 之外陆续提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity (真实性)最被普遍认同。

NO.2 大数据即科技

大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB(Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才被投到科技圈,轰得人人叁句不离大数据?

现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。

因此大数据不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。

NO.3大数据是不同的资料类型

现今「大数据」所涉及的资料已经和过去的资料已经不同了。根据 Hortonworks 公司战略副总裁 Shaun Connolly 的说法1,过去的资料大部分是人工手记下来的交易纪录(Transactions),现在则是机器替我们记录下来的交易资料;除此之外,还有人们跟事物、企业间的互动资料(Interactions),例如人们在网路上点击网页跟连结的纪录;最后则是机器自动生成、累积下来的观察资料(Observations),例如智慧型家居产品记录下来的室温变化等。

因此 Shaun Connolly 定义大数据是由交易、互动、观察资料所组成的资料型态。

NO.4大数据即讯号

SAP 公司的高管 Steve Lucas 不以资料型态来看待大数据,而是以目的(intent)跟时机(timing)。在过去,企业收集到的资料只能在事情发生后引以为鉴,但现在企业收集到的是“新讯号”,可以在事情发生前得到前兆跟提示,进而做出行动来影响事情结果。例如某品牌广告在社群网站上的「赞」数、点阅率如果跌落谷底,公司便可以预期接下来产品销售量一定也会惨不忍睹;同样的情形在过去时,公司所得到的数据就是产品发售后的销售

量。

NO.5 大数据即Big Data

根据 451 Research 的数据专家 Matt Aslett,他将大数据定义为Big Data 。这个说法也受到许多人的赞同,因为多半提起大数据时,都是在讨论这些以前无法分析处理、囊括其中的资料。

其实他在文中并不是用 Big Data 一字,而是使用「Dark Data(暗数据)」。事实上许多公司都使用暗数据这个字,因为当资料变「暗」了,便表示一个漏掉的讯息、错失的机会,在企业策略中留下一个盲点4。一直以来,各企业雇用数据专家的目的就是希望能「点亮」这些暗数据(illuminate the Dark Data),观察到以前不曾注意过的趋势、做出更全面的考量。也因此,SAP 曾经做过一个调查显示,将近 76% 的企业高管们视大数据为「机会」。

NO.6 大数据的哲学定义

前《Time(时代)》、《Life(生活)》、《National Geographic(国家地理)》杂志摄影师,负责过有史以来最大摄影项目的 Rick Smolan ,在他的著作《大数据的人性面孔》(The Human Face of Big Data)一书中,则给了大数据一个不错的哲学定义 ——「大数据是帮助地球建构神经系统的一个过程,在这系统中,我们(人类)不过是其中一种感测器。

NO.7 大数据是旧东西的新噱头

也有部份人认为,「大数据」一词被严重滥用,大数据只是商业智慧(Business

intelligence)或商业分析(Business analytics)演化后的新字7。

从 Google Trend 里可以看出,从 2004 年到现在,「Big Data」一字的搜寻次数从 2011 年开始飙涨的同时,人们对「Business intelligence」的兴趣则是持续降低。「Business analytics」趋势虽然小幅上涨,但短时间应该不可能赶上另外两个字的风潮。

因篇幅问题不能全部显示,请点此查看更多更全内容