作者:胡钰玺
来源:《电子商务》2017年第04期
摘要:随着“物联网”、“云计算”等新概念被政府强调、被企业运用推广,“大数据”也逐渐进入公众的视野。如何及时地获取数据、如何高效地分析数据,已成为软件工程师不得不面对的一个挑战。本文以一个软件工程专业本科生的视角,谈大数据的特点和大数据的应用,并猜想大数据可能面对的挑战。
关键词:大数据;特点;应用;挑战
数据是指所有文字、符号、图片等总称。计算机出现后,数据一般被默认为是所有能输入到计算机并被计算机程序处理的符号的总称。自互联网普及以来,数据的数量就在成指数级数增长,尤其是电子商务的快速发展和物联网技术的应用,使数据的增长速度达到难以想象的地步。据统计,Google一天产生20P的数据,(1P=1024T=1024*1024G);沃尔玛一小时要处理100万消费者的交易,要向数据库输入25P的数据;2009年,Facebook拥有2.5P用户数据,每天产生15T的数据;2009年,eBay拥有6.5P用户数据每天产生50T的数据;我们熟悉的阿里巴巴、淘宝拥有的数据量更是无法估计。大数据时代,无论是数据学家、统计学家还是金融学家,亦或是我们软件工程师,都开始觉得,传统的数据处理方式已经在日益增长且复杂多变的数据面前显得力不从心。人类,迫切地需要寻找一条出路——面对繁杂琐碎的数据,如果我们不能跳出传统的数据处理方式,用新方法有效地提取信息,就只能被无边无际的数据淹没。
幸运的是,在2010年,维克托·迈尔·舍恩伯格的《大数据时代》正式宣告了“大数据时代”的来临,并为即将被数据流沙淹没而束手无策的工程师们指明了一条出路:“我们要放弃对因果关系的追求,转而关注数据之间的相关度。”随后,金融行业、互联网行业都掀起了一場针对数据的变革风暴,“大数据”这一颠覆人们传统认知的思想,开始成为新发明和新服务的灵感源泉。
1、大数据的概念及特点
“大数据”一词首次出现在2011年麦肯锡发布的《大数据,下一个创新、竞争和生产力的前沿》的报告中,2013年开始风靡全球。其实大数据就是一种数量庞大、种类繁多的资料数据。正所谓“成也萧何,败也萧何”:海量和多样的数据使得用常规的工具无法在短时间内捕捉和整理,想要处理并挖掘其中的财富更是难上加难,但是,通过采用新的大规模数据处理手段(主要是云计算),从杂乱无章的巨大数据中发现很有价值的信息,为政府、企业、组织或者个人提供决策依据,这就是大数据的魅力所在。有能力对数据处理和利用的企业必将成为大数据浪潮下的“弄潮儿”。大数据,主要有五大特点:
1)数据容量大
在我看来,这是首要的特点。正是数据量的爆炸式增长引起了数据处理方式的变革,改变了我们以往对数据的看法。曾经因处理方式跟不上而“食之无味弃之可惜”的庞大数据如今因其潜在价值——相关性,而变得越来越重要,甚至已经成为一笔巨大的财富。 2)数据种类繁多
数据种类由单一走向繁多,不仅体现在数据形式上繁多(有文本数据、视频数据、音频数据等),还体现在数据来源的繁多(工厂生产过程中的生产数据、业务系统中业务数据、来自监控设备的视频数据,来自手机的通话数据等)。使我们不得不放弃曾经在数据处理上对因果关系的执着追求——即对“为什么”的探求,转而将目光投向数据之间的相关关系——即对“怎么做”的预测。这一思想不仅使得数据处理工作少了无谓的推演论证、多了高效的“找规律”和预判,而且让我们的眼界变得更广阔——或许我们曾经认为毫不相干的两者,其实存在内在联系?
3)数据处理速度快
数据产生的速度和数据更新的速度都出现了前所未有的高速发展,毋庸置疑,快速的处理也是体现了大数据的速度,大数据的处理速度得益于“云计算”助力。大数据的处理必须要有令人惊叹的速度,才能让我们尽早提出具有前瞻性的观点,达到先发制人的效果。 4)数据价值密度低
数据价值密度低是指和大量数据相比,真正有价值的数据所占比例很小,比如,在破案过程中产几十个小时的视频,但真正对破案有用的视频往往只有几分钟,甚至几十秒。庞大的数据看似是无用的糟粕,但倘若加以分析处理,便能用低廉的成本创造巨大的价值,取得“四两拨千斤”的奇效。 5)数据实时性强
随著传感技术和自动采集系统的应用和普及,数据的真实性和实时性大大提高,真实的数据才有利用的价值,它不仅能反映过去事物之间的联系和规律,也能在未来为我们的决策提供可靠的信息。 2、大数据的应用
在我还是个孩子的时候,就曾听父亲讲过一个这样的故事:曾有一段时间,沃尔玛超市将尿布和啤酒摆在相邻的货架上出售。在我们常人看来,酒水饮料与婴儿用品这两个不相干的种类放在一起是违反逻辑的,这种举措无疑会让人更难搜寻商品进而降低销量。奇怪的是,尿布
和啤酒的销量都比以往增加不少。原来,来超市选购婴儿尿布的大多是下班回家的丈夫,他们很乐意在买完尿布之后再买一些啤酒,只是大部分人不愿在超市逗留太久而没有去酒水货柜。是什么让沃尔玛发现了尿布和啤酒之间的关系呢?正是商家通过分析多年超市交易的销售数据,才发现了这个不易被察觉的规律,进而有了一笔可观的利润。这是我最早了解到的关于数据挖掘的知识,如今的“大数据”,或许能更好地帮我们这些“准软件工程师”利用曾经难以收集、难以把握的资源,并创造更有价值的东西。
下面,我将列举大数据在几个不同领域的应用,在这些朝气蓬勃、欣欣向荣的领域里,都有我们软件工程师的身影!
1)2016年3月,谷歌旗下的Deepmind公司团队开发的围棋人工智能程序AlphaGo以4:1战胜韩国职业九段李世石。这款主要工作原理为“深度学习”的软件的棋力迅速提升很大程度上是因为录入大量的棋谱后进行“落子与胜负”之间的关系分析,然后进行上千万盘机器内部模拟对弈。大数据的大容量、高速度在人工智能和机器的自我学习上得到充分展现,其中当然有程序员的功劳。
2)以Facebook为代表的社交应用,把我们现实生活中的人际交往模式和互动关系巧妙地搬到了互联网空间中,并借助互联网的特性将人们紧密联系在一起,甚至让我们轻易地拓展社交圈子,认识世界各地志同道合的朋友。程序员们凭借大数据思想,在为用户筛选“可能感兴趣的人”和“可能想关注的事”时,不再仅仅凭借用户填写的年龄、地区、职业等死板抽象的内容将我们归类,而是采用了一类更加生动形象、令用户满意的数据类型:兴趣和爱好。你是不是想起了社交软件针对你的兴趣爱好推荐了你“想要结识的人”呢?你是不是想起了购物软件会推荐一些你“可能感兴趣的商品”呢?没错,这些应用已经通过你浏览网页、访问认证等操作了解了你的偏好。更重要的是,这些软件可以利用用户的社交圈子来迅速推广新款的商品、传播新型的理念。设想一下,当你发现关系网中和你志趣相投的朋友都选择了某种商品时,你会不会也希望去尝试呢?另外,经过兴趣分类的用户组为商家在售后调查商品满意度、在新款发布前征求消费者意见打开了一扇方便之门,也让我们更加轻易地找到志同道合的朋友和让我们心仪的商品。事实上,大型的社交网络平台与电子商务经营者只要联合起来,就可以以每一个社交用户作为结点枢纽,通过“分享”的记录、“推荐”的历史和“浏览”的痕迹将一个庞大的用户群体挖掘出来。用大数据方法,以“用户集群”作为研究消费偏好、调查商品满意度的分析单位,绘制并预测用户群体的行为轨迹和兴趣走向,一定比传统意义上的个体分析要快捷、精准得多。
3)2016年1月,阿里云宣布分享大数据能力,开放全球首个一站式大数据平台“数加”。这个平台一定程度上解决了个体和中小型企业与大型企业的数据信息不对称的问题,使得个体能够借用阿里巴巴的大数据获取有用的信息为生活提供便利,使得中小型企业不必通过耗费大量资本的数据采集就可以运用现成数据进行方案决策和算法开发。这种情况下,大数据,成为了一笔可以共享的财富。
3、大数据可能面对的挑战 1)大数据尚不能完全代替传统数据
当前大数据尚不能完全取代传统的结构化数据。由于关系型数据简单、数据易存取和易处理等特点,几乎绝大多数企业、政府机关的业务系统都是基于关系型数据库的(例如Oracle,DB2,SQL Se rver,Access都是关系数据库),因此结构化数据库也会随着业务系统的应用不断增加,只是随物联网技术的应用、互联网的普及、移动应用的快速扩大、聊天信息和视频数据等非结构化数据成指数级数的增加,结构化数据所占的比例在快速下降,但由于非结构化数据的收集难度大、分析成本高、相关人才匮乏,有效的非结构化数据与结构化数据相比并不占绝对优势。对于某些特定的应用(例如MIS、ERP,CRM等),结构化数据仍然占据主导地位。
2)大数据中的数据保护问题短期内无法很好解决
大数据时代,网络的迅猛发展和数据共享的思维浪潮使获取数据不再是难题,但同时也给信息安全带来了巨大的挑战。如何在共享可作为公用的数据的同时保护私有数据不受侵犯,成为一大难题。众所周知,当今的数据安全形势不容乐观:需受到保护的数据增长已经远远超过了我们将其纳入数据保护伞之下的能力。而且保护的数据范围在不断扩大,例如早期我们认为姓名、电话号码,住址等需要保护,购买的物品名称和购买时间并不是隐私,但大数据时代一切都变了,随着集成的数据不断增多,例如,医疗数据、教育数据、购物数据等大量数据的集成,并利用大数进行分析,也许就能发现用户最隐私的信息,例如购物明细和医疗数据结合也许可以分析出某人患有某种疾病这种需要保护的用户隐私。这个严峻的形势也给我们新一代的软件工程从业者提出了不少值得思考的问题。 3)大数据将成为一种科学研究方法
在医疗、教育、生产等各行各业,只要有足够的数据支持相关性就证明这种方法是科学的,无需分析为什么。例如存在大量案例数据表明某种药物对治疗心脏疾病是有效时,该药物便是治疗心脏病的科学方法。当然,随着时间的推移,数据的不断积累,从大数据发现的规律和相关性也是变化的。
毋庸置疑,在政府重视、公众关注、企業运用的大环境下,大数据的思想及方法将会被越来越广泛地应用到我们的生活当中。繁琐枯燥的数据经程序员之手,将会转化为一份份可靠的分析报告,将会构建起一个个为民众生活提供诸多便利的应用平台。大数据时代里,我们新一代软件工程师,已经准备好了!
因篇幅问题不能全部显示,请点此查看更多更全内容