我们都已被反复的告知:随着科技技术不断发展和完善,一个属于大数据的信息时代将会来临,而这个事实我们无法改变只有在这次变革中不断创新和学习,才不会被时代所抛弃。
随着现代科技技术不断更新网络以及信息技术的不断发展和普及,人类在日常生活中所产生的数据量正在呈爆炸式的增长。每年以惊人的速度持续增长着,海量的数据就如同火山爆发,无法阻挡。这意味着人类在最近几年所产生的数据量已经相当于过去人类产生的所有数据的总量,人类迈入大数据时代的脚步已经无法停下这是大势所趋的事情。
海量数据存储和分析技术的突破性发展如云存储和云计算等等,他们的应用使得很多行业能够获得了突破的契机。当然也包含了服装相关的行业。
而起步于电子商务的服装行业发展十分迅速,相对于传统的服装经营方式,也体现了巨大优势。
a.在互联网上建立交易平台或者借助淘宝、京东、阿里巴巴等交易平台。节省了中间流通产生的费用。消除了“中间商”降低了实际流通的通信费用。
b.服装行业的公司能在互联网的网站上做宣传,提升自己在的形企业的影响力,起到广告作用。
c.在网上,能够通过平台与顾客交流直接反馈到企业自身,省却中间环节,提高沟通效率。
d.尤其是对中小型服装企业通过电子商务的平台有机会能够参与到全球的大竞争环境当中去。
B2C这种商业模式,是现在服装企业普遍采取的一种电商模式,也是众多传统行业的选择。也就是服装企业通过在网上构建一个能够供个人或者企业消费者在互联网上进行产品挑选,购买的平台。 在如此多的传统领域中,发展较为良好的的产业应该属于服装电商了。在发展的这些年里一直发展迅猛。并从这之中获取了巨大的利润。
1.1.2论文的意义
服装电子商务是借助互联网与企业客户进行互动,通过在网上展示自己的服装产品并为客户提供服务。在整个过程中涉及到了许许多
多环节比如资金的流动,物流运输以及信息的流动而这其中远远脱不开互联网的支持和参与。现在的服装电子商务可谓百家齐放,销售通过网络平台,交易越来越规模化,形式也越来越多多样化,也越来越注重自身的品牌经营。
由于服装电商的成长十分迅速,因此企业的发展被带上了高速的轨道。其中的无限商机是人们不可想象的,但是,机遇的同时伴随而来的也有挑战,告诉发展的路上竞争越来越激烈,问题也越加的明显。那么如何应对这其中挑战并抓住机遇呢?但终究还是需要让消费者满意才行。所以如何抓住消费者的心才是关键。
要留住客人们的心,其中包含了很多方面。而对于电子商务这个行业来说有大概这么几点,首先有企业的自身形象,产品定位,企业的管理,网站设计,营销推广、售后,物流,还有客户。其中对于服装行业来说,整个企业网站的风格、功能设计、购物流程及售等等后。各种微小的环节有不到位都会改变顾客的最终想法。所以想要在如此激烈的大环境中傲视群雄的话,就要让自身服装企业的网站具有鲜明独特的风格,能够让顾客印象深刻,牢牢记住,并同时用良好的服务让顾客成为熟客。
1.1.3目的
作者期望通过对于大数据的背景下是在服装图像检索和识别方面的研究应用,能够使客户在消费过程中能够有更加良好的消费体验,使他们不再是仅仅通过打字来描述自己想的要服装,因为毕竟不是所有人都善于文字描述,而且通过客户本身自己来描述难免带有自身的主观性,不利于在海量数据中检索出结果,通过服装图像自身所有含有的信息作为检索条件的话,能够更加客观而准确的检索到结果。以便顾客达到良好的购物体验,也使得服装企业在电子商务领域的发展更进一步。
1.2 国内外的发展现状
1.2.1国外发展现状
从上世纪就有人在从事对图像的检索的研究了,在那时候,人们的研究方向主要是以文本内容为索引的图像检索,等到了上个世纪末的时候。在数据库的技术得以进步,以及计算机视觉方面的技术也在不断发展,在此条件下基于内同的图像检索技术应人们的需求,逐渐
发展成为一个备受关注的研究领域,当时有许多科研所和实验室都着手研究这个项目。
而现在基本的方向有以下几个: 1.2.1.1基于文字的图像检索
顾名思义利用文本来描述图像的特征并通过已有的算法在预先准备好的数据库中进行检索。并且通过这种搜索方法所获得的结果也非图像本身,而是该图像有关联的文本信息,通过这些信息才能找到所需图像。该方法虽然有很多优点,但是,以文本为主的检索也还是有其局限和不足,它的劣势体现于当图像内容太多本身过于复杂时,人工无法通过文字准确描述出图像本身所涵盖的内容(比如不规则多边形或者颜色的准确性以及纹理等都无法通过文字而准确的进行描述)。还有一点需要注意的是,由于通过人工用文本来标注的话具有很强的主观色彩,如此情况下由于描述者的差异对于相同的图像也有着理解上的差异,因而对其的描述也会产生差异(这种主观性质无法避免),所带来一定的歧义,而且通过人工标注图像特征的工作十分费时费力,一旦图像内容过于丰富,其中的消耗件显得太大了而且效率十分低下,无法满足大量数据下的多媒体检索要求。 1.2.1.2基于内容的图像检索
这里我们简称为CBIR是一种通过提取图像本身的所存在的客观特征(如形状,轮廓,外观。区域空间,颜色和纹理等)然后通过这些视觉特征的相似性,从而搜索出符合所选要求的结果。该检索方法因为是从图像本身的内容为出发点,通过客观的特征进行检索,无需或者仅需很少的人工标注,是当前网络环境图像检索技术中的主流技术。与基于文本的图像检索相比较,通过各种考量此方法更符合用户的实际需求。 1.2.1.3基于色彩的索引技术
色彩是物体表面的一种物理特征,是人类通过眼睛对光的一种感受,任何物体都有一定的色彩属性。如蓝色往往是和天空,海洋产生联系,因此我们用色彩来进行图像检索;通过对色彩信息的统计并且用直方图来表示结果进行检索。基于色彩特征的索引技术是对色彩信息采集的一种方式其中又可以细分为基于全局色彩特征的索引还有就是基于局部色彩特征的索引。全局索引目前经常选用的是直方图的方法。这种方法主要是利用每种色彩出现的可能性,然后在频度图中
表现出来。但是它也有其明显的不足和缺陷,那就是它损失了图像空间方面的信息。由于它把色彩信息当作一个概率处理,根本就不考虑空间特征,所以图像空间信息的丢失非常明显。另一种是局部色彩特征索引,它是指把图像中的某一块区域进行分割,然后再利用直方图的方法来统计该区域。但这种方法的问题主要是色彩区域的选择不一定统一,有的使用RGB区域,而另外的选择HSV区域。 1.2.1.4基于纹理特征的索引技术
对纹理进行定义和量化纹理有许多种方法,其中最常用的主要有两种:一种是对图像具中有规律性的结构部分加以总结分析,而另一种是对图像的色彩区域进行统计和分析;其中从数学角度的研究纹理的灰度级的空间相互的关系,并根据像素的方向和相互之间的空间距离构造了共生矩阵,然后从前者中提取一些统计特征作为纹理特征,其中这些纹理特征主要有:熵,相关性等;但这种方法也有明显的缺点,那就是人对纹理特征的鉴别和这些统计特征没有相应的关系;现在有很多人提出了怎么样去度量纹理特征,而这些纹理特征主要包括:粗糙度,对比度等。但是目前对纹理特征的判断还没有一个标准的规范,;现在有许多学
者,专家将小波变换运用到图像纹理分析中,并且已经取得了非常好的检索效果。
1.2.1.5基于形状特征的索引技术
形状是一幅图像的重要内在特征之一,对形状怎么样进行操作它涉及到轮廓边缘的操作,同时也涉及到了对这个轮廓特征的操作。在这其中,Jain和Gudivada 分别采取了直线段和样条拟合曲线。另外有些学者还采取了豪斯道夫距离来衡量两个不同特征之间的距离。但是这些方法都会对边界的一些信息损失很大,从而对检索的效果不是很好。对轮廓特征的操作,主要涉及到形状的面积,横坐标的值纵与坐标长度的值二者的比值。当然基于形状特征的索引技术,在常用的办法往往是使形状轮廓和轮廓特征相结合共同使用的方法。
目前计算机模式识别和图像数据库的一些融合研究是主要的检索技术。怎么管理,组织和查询都是要研究的方向。尽管传统的一些技术有些不合现在的要求,但是对其进行研究也必不可少,因为我们可以借鉴相关的模型和技术。而作为计算机模式识别中的一种,根据相似性研究正在相关方面起着非常重要的作用。另外,多模态数据的结合也将是一种非常重要的技术。
1.2.2国内发展现状
国内的服装电子商务从开始和起步到现在已经发展了有十几年,如今已经是进入到了飞速发展的重要时期,从二零零五年,首个网络形式
的服装直销商城在PPG的手下诞生,它就被人们认为是服装在电商领域里的新开端,有着里程碑似得意义。
目前国内外各大购物或者服装资讯网站上在商品的检索功能上,仅仅还是依靠基于文本内容来提供检索的方式。这种方式的实现方法我在上文中提到过,其实是通过建立一个数据库,将各类服装的图像先人为的进行文字标注,例如产地,价格款式等等个各种不同的属性,并且将这些属性以适当的格式存入到所建立的数据库或者系统中。当消费者输入相关的关键字时,比如衬衫,男款,格纹等等,系统将对关键字进行数据库范围内的搜索比对,然后按照排序输入相应的搜索结果。
1.3提出问题
由于现在各大网络销售平台上买卖的用户数量庞大,在针对独立的个体用户上的商品信息推送以及针对个体用户的单向服务方面存在比较大的缺陷,尤其在商品的检索方面类别十分单一,对于用户的体验没有提升,尤其是对服装这类需要大量接触图像的商品上显得尤为突出,而以文本内容为主的图像检索,虽然可以实现所需的功能,但是其中存在许多不足和缺陷。有如下几点:
a.对于服装图像的描述不够客观,因为毕竟是人为的对图像进行文字标注,人是一种感性的动物,对于美有着自己的理解,每个人的经历和受教育的程度、爱好、民族乃至性别的不同,各种因素的影响下,是很难能够准确而且客观的标注上服装图像的完整信息。
b.对于某些超大型的数据库来说,人工标准文本这种方式显得有点不切实际了,每天新产生的数据以G、T甚至PB来计算,这几乎无法靠人工来完成。
c.尤其是对于处在大数据时代的今天,资源共享,各种人哪怕是对同一款衣服也会有不同的看法和理解。
所以,以文本内容为基础的图像检索方式对于在服装电商领域里存在十分大的局限性。而面对如此复杂的形势,以图像本身的内容为基础的检索方式慢慢进入人们所关心的视野当中。
然而目前对于基于图像内容为基础的检索方式十分少见,虽然在逐渐的进入人们的视野但是还不够普及,检索结果上也不够准确。尤
其想要在服装电商行业中实现预想中的以图像本身的内容的图像检索,目前仍然有着许多困难。以下是目前国内常用的以图像内容为基础的检索引擎如图1-1、 1-2、 1-3所示。
图1-3 谷歌搜图
图1-1 百度识图
图1-2 搜狗识图
本文中作者我考虑到基于问题的图像检索相对单一的方式,希望能够通过对于基于图像内容的图像检索的研究,对一些无法通过文字表达的图像内容,提供一种检索成功的几率,同时希望能够运用在服装电子商务的行业中。为此。我在本文中提出几种检索方式其中是对服装图像的轮廓,服装图像的颜色以及对服装图像的纹理这三种服装基本特征的检索方式。
1.4 本论文的组织结构
本文主要描述围绕基于大数据背景下的图像检索技术以及它与服
装电商的关系进行研究,并概括了该检索技术在服装电商中的可行性和应用价值。
其中第一章是绪论部分,从研究背景和社会现状两方面重点介绍了服装电商中大数据方面的图像检索技术的应用,同时也表明了论文研究的目的和意义。
第二章是大数据的理论研究,对大数据作出基本定义并指出了大数据的特点、分析方法、处理大数据的方法、大数据的应用案例分析以及我对大数据在服装电商中应用的研究和分析。
第三章是针对电子商务理论的描述,对其类型以及服装类在该领域中的现状和发展趋势的概述,以及我对服装电商的研究和分析。
第四章是表述基于内容的图像检索技术的理论概述和原理分析 第五章是对图像检索技术在服装电商行业中的应用研究和分析 第六章是对论文的总结和梳理,在全文的基础上进行全面的概括。
第二章 大数据概念
那么首先我们先了解下什么是大数据,总的来说呢,随着科技发展,存储技术的进步,以及社交网络全球范围内的流行,网上的多媒体数据呈现爆炸式的增长,这种容量大无规律的一种庞杂的数据体系是互联网和科技进步不断发展后而产生的一种神奇产物,它的多样性超乎想象,不仅包含文字,同时也可以是图像、声音、位置、一个符号等等。它的形式不再是单一的存在,这些数量庞大同时也极具价值的结构化和半结构化数据逐渐成为人们的研究热点和各界关注的焦点。
2.1大数据的起源
随着现代科技技术不断更新网络以及信息技术的不断发展和普及,人类在日常生活中所产生的数据量正在呈爆炸式的增长。每年以惊人的速度持续增长着,海量的数据就如同火山爆发,无法阻挡。这意味着人类在最近几年所产生的数据量已经相当于过去人类产生的所有数据的总量,人类迈入大数据时代的脚步已经无法停下这是大势所趋的事情。
下图2-1为近几年来,大数据受到人们关注的调查。
, 随着手机通信技术,互联网络技术和社交网络的普及。无
论是网民或者非网民都在不断产生各种数据,随着这些非结构化,半结构化数据的增长。积累的数据由于数量实在太过庞大远不是人力所能处理的。于是怎么管理以及运用这些由我们人类所创造的数据,也已经变成了一个全新的科学领域,而这就是所谓大数据概念了。
图2-1 关注调查结果
2.2大数据的发展状况
大数据的迅猛发展,从过去的美国到现在的全世界,无处不在谈论它。它的价值也在逐渐的体现当中,而如今我国的大数据市场同样十分巨大,大数据产业的发展潜力毋庸置疑。
2.2.1国内发展情况
随着国外的大数据热潮传到国内,也带动了国内各界大数据的关注。国家方面也非常重视大数据的发展和应用,成立许多相关的机构专门针对大数据进行研究和探讨。同时出台各类文件中也均有提到,深表关注,大数据的重要组成部分包括,数据存储、挖掘技术、数据的智能分析等。并且国内的各大行业现状大多数都开始与电子商务接轨,而这也势必会与大数据有关,以前有话叫有人的地方就有江湖,现在也可以这么说,有人的地方就有大数据。
2.2.2具体应用
而在具体应用方面,电子商务巨头阿里巴巴也通过自身情况结合,在网络销售方面运用自身资源优势,整合各大资源,动作不停,通过本身所掌握的强大资源和数据,结合大数据技术开展了许许多多的业务,成果不菲,其电商领域的地位在中国乃至亚洲范围内都无人可以动摇。
大数据的热潮掀起了新一论思想革命,大数据观念逐步被人们所接受认同,改变了以前数据的积累不被人们所关注的情况,人们逐渐的对数据产生兴趣和关注。思维的改变导致现在大数据发展的道路的改变。
2.3大数据定义
大数据(big data),也有人管他叫海量的数据,指的是目前网络中的主流软件工具无法处理的海量资料,也无法很短的时间内获取、管理、处理资讯,并整理过后,能够帮助各企业通过这些数据资料做出合理的、有利于企业的决策和行为。
而且大数据的概念绝不仅仅是数量庞大的数据,以及管理和运算这些庞大数据的一种技术这样浅显的概念,而是包括了在海量的数据的背景下可以分析和决策的事情,并且在缺乏数据或者数量较小的情况下有的事情没有办法完成的。换一种理解方式来看,大数据可以说
是一种变革,让人们能以一种之前未曾接触过的方式,通过分析搜集到的规模巨大的数据,从中获得一些富含很多价值的东西。这也许才是大数据该有的定义和理念。
2.4大数据的特点
大数据时代的来临,使得那些人们不断关注这个话题并研究其价值,随着研究的发现大数据的特征可以归纳为在以下4方面: a. volume数据体量巨大
Volume指的是数据巨大的数据量以及其规模的完整性。数据的单位从原来的的T增大到现在的Z,这都要归功于现代网络和数据的存储等相关技术的高速发展。由于社交网络的普及和通信网络技术的高速发展使得人们的生活方式发生改变,人们的社交方式在改变,他们在网络上的时间大大增加从而产生了海量的数据信息。对于如此海量的数据,若对其进行研究分析的话,能够从中挖掘出各种难以想象的资源和机会。 b. Velocity
Velocity 大数据的高速性主要是在数据流的传输速度以及大数据的移动性上得以体现。伴随移动通信的快速发展和越加成熟的技术,各项实时数据能够被有效的利用,比如某地堵车,发个微信周围的朋友都知道了,可以提前绕路。又或者天气预报报道变天了,可以通过手机客户端及时了解这个情况,提早应对。还有如果某地方发生了一件爆炸性的事时通过微博等社交平台,一传十十传百,很快全世界都知道了。这就是大数据的高速性。 c. Variety数据类型繁多
Variety指有信息数据类型繁多尤其是其中来源途径多种多样的的关系型和非关系型数据。在如今互联网时代,网络将各种设备连接成了一个超大的整体。在互联网上个人不仅可以通过自己的设备获得网上各种信息,同时也成为了各种信息的生产者和传播者。数据的增长不仅体现在数量的增多,更多的是数据类型的变化。
除了简单的文字信息外,互联网上任何数据都能成为大数据的一份子,比如微博的图片,视频,音频,等等都会被认为是有价值的信息。因为在海量的数据里存在这肉眼不可见的关联性,通过对其进行
分析和计算可以使得其变为可用的信息。 d. Value 价值
Value 大数据在被运用时才是体现其价值性的时候。因为大数据数据规模太大且种类繁杂,所以其价值也具有不确定性和多样性的特点。
大数据现在已经不再是一句海量的数据就能简单描述的事情了,而且目前大数据最重要的情况是是对如何对大数据进行分析获得有价值的信息。如何使用这些信息对于人们所在行业有帮助。这才是现在人们更加关注的。大数据的应用不断的进入越来越多领域,通过时也给大数据增长来了复杂性。所以分析方法在大数据领域的地位就显得举足轻重了,换句话说,分析方法的优劣将决定大数据的发展和价值。基于以上的描述所以大数据的分析理论方法有如下几方面。
2.5 大数据研究的5方面
a.可视化分析
大数据分析的使用者不仅有所谓专家,同时更多的还是没有更多专业知识的普通用户,但是两者之间的需求却是相同的,都是希望能够看到数据的图表也就是数据的可视化,因为现在许多人都患有阅读恐惧症,所以越是简单明了的数据图表就越是为人们所接受 b.数据挖掘算法
数据挖掘算法是大数据的理论核心,各种算法在不同类型类型的数据基础上使这些数据展现出自身独特的价值,同时也能顾高效的处理和解决大数据,使得价值最大化。 c.预测性分析能力
预测性分析是体现大数据价值的最重要的领域了,通过建立数学模型以及算法,对大数据进行分析处理,可以得到一些在未来有概率发生的事情,从而做出预测性的决策。 d.语义引擎
通过对网络用户在网络上用词以及关注的信息,可以从海量的用户信息中获取这些零散数据,并对其进行分析研究,针对其作出相应的服务措施和广告推送。 e.数据质量管理
良好的数据质量和数据管理是各个信息化行业能够平稳发展的保证。 大数据技术是指从各类型的海量数据中,短时间内获得有利的数据信息的一种技术。大数据在这里不单是说数据的规模,同时也包括采数据采集、数据存在的平台以及处理数据的系统。
2.6 大数据的处理
大数据是如何处理的呢?简单来说,有如下五方面: a.采集
大数据的采集是指通过建立一定数量的数据库,用于收集网络客户端的零散数据信息。且该数据库中的数据是可供自由调用和处理的。在采集过程中,可能会有很多用户在访问和操作数据库这是需要注意的。
b.导入/预处理
对采集到是数据进行在进入数据库之前先简单的进行分类或者是小处理,使数据较为容易接收和处理,这样才有利于数据的导入的数据被高效利用。
c.统计/分析
大数据的统计和分析主要是通过分布式数据库来完成的。因为大数据本身规模巨大的特点,普通的数据库无法满足其对数据分析统计的要求,大量的半结构化数据只有具有分布式结构的数据库才有办法满足其需求。现在较为主流的是Hadoop或者Exadata等。
d.挖掘
与统计分析的过程不同,数据挖掘主要在搜集到的数据上通过计算,从而获得具有预测性结果的数据,通过算出的数据综合相关信息做出有利的决策。较为主流的算法有Kmeans、主攻统计的SVM以及被广泛运用在分类领域NaiveBayes等。数据挖掘的过程十分困难,用于计算的算法非常复杂,并且计算量浩大,
一个相对完整的处理过程包含了以上的四个方面。
2.7大数据营销
通过对大数据的处理和分析前提下,针对用户进行准确的信息推送和有目的的售前推荐,这才是其本质性目的。
大数据营销主要应用在三个方面: a.渠道优化,
b.精准营销信息推送,
c.线上与线下营销的连接。
a.渠道优化。通过消费者在互联网络上的冲浪浏览记录,透过对消费者的行为和心理进行分析,得出结果之后,找出适合消费者浏览的方式或者满足平常习惯的营销和宣传规律,然后对整个企业的营销渠道在原有的基础上进行改变。
b.精准营销信息推送。那么,精准的信息投放,应该如何进行才好呢?要进行这种推送,首先要对消费者们做出细致的调查,以及研究,海量的消费者数据,正在被企业们有意的搜集当中,通过对其的分析、研究,可以给消费者们按照不同类型进行分组,然后这些小组,企业们有针对性的进行推送。
c.企打通线上线下营销。大数据的信息不仅仅是在互联网上获得的,那么就必须要你在互联网上研究以及使用,很多企业,通过对网络数据的收集,研究顾客们在互联网之外的现实环境中的信息。然后根据顾客留在网上的信息,在现实生活中,对他进行有针对的服务和营销。
第三章 电子商务理论
对于历史我们需要对其进行深入的认识,就否则就无法清楚的地洞察未来,今天主要是想从互联网历史的角度来谈谈电商的开端。先看图3-1,图中蓝色是美国,红色是中国。从图3-1上可以看出,短短七八年的时间,在如此短的时间里,中国就已经在互联网用户总数就超过了美国。而且用了不到两年时间,在手机的用户数上,中国同样也赶超了美国。这两个结合在一起才是中国的互联网人口结构人,一切就从这张图开始。
据调查,中国零售行业在过去的五年时间增长了2倍,网络零售行业在五年间增长了十九倍。这就是为什么要使服装产业电子商务化或者可以说使之商务电子化。
图3-1
3.1电子商务概念
电子商务,通常是指贸易的双方通过互联网这样的环境,通过现在的通信设备,在全球范围内,进行贸易活动,不需要像在现实生活中一样要当场确认的一种商务模式。这是一种新的区别于传统的模式,它具有革命性的意义,在线交易是和网上支付是其中的重点领域,一切的一切都可以通过互联网来解决。
3.1.1电子商务的特征
a.交易网络虚拟化
通过计算机在互联网上与顾客、商户进行贸易,买家和卖家在贸易中的协商,到交易的成功进行,都在网上完成,无需见面进行,所
有的一切都是通过计算机和网络来操作的,整个贸易虚拟化。交易通过虚拟环境中行进,打破传统的销售模式,节省了许多社会资源。使交易完成的效率大大增加。企业发展更加快速。
b.交易成本低。由于是在网络环境中完成的交易,双方不需要来回奔波,中间的交易成本减少很多。二是双方通过互联网,和移动网络交流,摆脱中间商的介入,直接是厂商与顾客的关系,中间的价格空间弹性很大,三是企业通过网络平台展示产品,广告宣传,宣传的成本大大降低,同时摆脱传统的宣传方式,节省资源,节能环保,也因为网络的全球性,能够让更多的潜在客户看到自己。四是没有实体负担,大大降低实体营销的成本,自然能够提高在生产中的投入,使得产品更有保障更有竞争力。
c.交易成交的效率好。众所周知,互联网中数据的存在,是具有一定的规范以及标准的,不是单一形式的。使得在互联网上的传输的文件和资料能够快速而方便的进入各自的计算机中进行处理。高速快捷。这使得中间的生产管理环节,沟通交流,人员调度,物流托运等等环节,能够迅速完成。同时这种操作有其优点,那就是它的准确性更高,能够容易的避免由于人工而出现的问题,减少失误。
d.集成性。作为一种新兴产业,具有很大集成效应,通过整合新老实物,使新的想法能得以实施,老的产业能够焕发活力。使新老产业的矛盾得以调和成为一个高效运行的整体
e.交易透明。交易的各方从商谈、到成交,款项支付,货物托运,这其中的各个环节都是在互联网络中进行。高效快捷的信息交流,迅捷完成的同时也保证了虚假交易的发现以及防止。
f.资源配置优化。在相同的行业里,不同企业之间难免存在一些差异。不可能所有企业都发展的一样好决策者,员工,技术,资源的各方面的差异,导致了各企业发展的不同,而强者必然获得更多社会资源,弱者享有的就更少。与此同时,社会的资源的流动,就能够向更优的方向上发展。
g.助于企业创新。电子商务的发展可以说是大势所趋,这样的形势下,迫使传统的老企业推陈出新,更新技术,提升产品品质,同时也更新自己的生产理念。一招鲜吃遍天的老话在电子商务领域或许不
是很好用了。所以在电子商务迅捷发展以及它强大的影响力下,不能够跟上创新步伐的企业势必要被淘汰,这是电子商务所创造的大环境,对于各行业来说起到了积极推进的作用。
h.促进企业与市场对接。过去厂家和顾客之间总是存在这中间商贩,中间商贩是企业与顾客之间的交流媒介,这使得二者之间的信息交流不能够快速而有效的进行。人们过去的消费场所往往是在商场,店铺。现在通过互联网可以直接与厂商联系购买甚至是提出定做,中间省却很多环节同时也能够让企业了解到顾客的真实诉求和一手的市场信息。
3.1.2主要领域
a)B2B
即企业对企业
平台类B2B 业界代表:如阿里巴巴。 业界代表:有阿里巴巴,环球,太平洋等 b)B2C
B2C 企业对个人业界代表:卓越亚马逊、凡客等。 1、平台类B2C:有淘宝的天猫、一号店、当当等 2、直销类B2C:好乐买等。 c)C2C
C2C 个人对个人业界代表:拍拍、易趣、淘宝网、美国ebay等。 B2G 企业对政府业界代表:政府采购网。 d)O2O
O2O 就是线上对线下也就是将网上平台和线下的实体产业相融合,通过互联网来与消费者在线互动交流,然后可以线下交易,让双方满意省却中间环节,减低成本,高效。
3.2 发展趋势
3.2.1国内现状
电子商务的市场发展潜力是显而易见的。因为:一方面,中国互联网发展势头迅猛,网民数量惊人,同时还在以很快的速度在增加,并且他们中的一部分已然是电子商务的用户,而他们之中数量更多的则是这个快速发展中的市场的可发展用户,他们才是强大的后备军。另一方面,通过电子商务交易额的调查,可以清楚看到其发展迅猛。
“要么电子商务,要么无商可务”,某人曾经说过的话今天已然成为现实。
电子商务改变了企业。因为电子商务的发展,注定了过去有的形式不再适合现在了。因此传统的企业改变了企业结构和管理运作方式,创新技术,研究生产,努力改变经营方式从而实现了高收益。电子商务也改变了世界。电子商务的潜力所有人都看到,各个国家甚至将它视为可以提升国家竞争力一项重要产业,可以作为衡量国力的筹码。
3.2.2电子商务国内发展趋势
a.在未来,电子商务发展趋势依然会是高速发展的状态
我国网民总数会持续增加,网上消费的人数也会随之增加,这意味着我过将形成全球范围内规模最大的电子商务体系而且我过的电子商务服务业将成为最具竞争力的,电子商务的应用规模也会越来越大,电子商务发展也会得到各方的支持和帮助。
b.行业的发展趋势将会想小而精的细化方向进行
由于市场规模和竞争,有独特个性化的应用将电商领域中越来越突出,越是在各自的领域中有自己鲜明的个性,越是能够抢占市场。
基于零碎的小规模市场会因为各种各样的原因,导致成交量不理想,这就导致商家们推成出新提供更具特色的产品和服务吸引眼球和顾客,这样做的效果就是一方面极大提高自己的做工水平,同时学会与其他产业合作,形成企业与企业间的流水线,分工合作,互帮互助,也提醒自己在所在领域做强做专。
目前越来越多的电子商务网站已经开始行业的细分了,其中包括的行业就有服装行业、电器行业等,而且服装类电商的B2C可以说是发展的最快的。
c.电子商务将会成为战略性的新产业。
中国现在正处于电子商务的形成期,发展十分迅速,尤其是在贸易上有着很大优势,有可能在未来成为支柱型产业。电子商务将变成衡量国际竞争力的一项新兴产业,将有可能引导国家的经济发展战略。
d.作用愈加突出,进一步融合传统产业,与社会更加密不可分 随着电子商务发展,越来越多的企业开始与这个领域接触。传统产业不再是孤立无援,在电子商务的合作中,二者的关系将会更加密切更加的互相融合。电子商务将广泛的渗透到各个行业,改变传统行业的生产,运输,管理和销售,以及人员资源的配置各个方面。
e.相关的技术和商业模也将快速发展
新兴科技技术与电子商务的结合,如云计算、物联网等都推动电子商务的进程,兴起一次又一次的领域革命。
目前尚处于发展状态的云技术,作为一种强大的数据处理系统,作为未来电子商务的基础。将为许多电子商务的商家们提供技术方面的强大支持,解决海量数据带来的巨大挑战和机遇,帮助电商用户们提升面对各种方面问题的能力同时希望借助这些新技术帮助更多中小传统企业进入这个领域。
f.移动电子商务的发展和普及会提升
伴随手机普及,移动网络也在快速发展,我过的移动电子商务能以此为基础迅速发展。未来几年,在各行业与移动行业共同的推进下,随着移动网络的迅速发展,手机上网将更普遍,移动用户将可以通过个人的终端实现手机随时随地购物,立体化的电子商务模式将通过多
媒体和互联网以及移动网络建立。由于手机的方便和快捷,移动通信基础上的电子商务将会发展到一个全新的高度。
第四章 图像检索技术
那么现在简单了解下图像检索技术,随着现在多媒体技术的发展
和完善,人们对多媒体信息数据的需求和处理需求也越加频繁,那么如何帮助网民用户们迅速的获得所需的信息呢,尤其在现在的很多人患上了文字阅读恐惧症的情况下,所以图像检索的研究也成为了许多科学家们的课题,在检索领域有着十分重要的地位。
4.1图像检索技术介绍
4.1.1 基于文本的图像检索
顾名思义利用文本来描述图像的特征并通过已有的算法在预先准备好的数据库中进行检索。并且通过这种搜索方法所获得的结果也非图像本身,而是该图像有关联的文本信息,通过这些信息才能找到所需图像。该方法虽然有很多优点,但是,以文本为主的检索也还是有其局限和不足,它的劣势体现于当图像内容太多本身过于复杂时,人工无法通过文字准确描述出图像本身所涵盖的内容(比如不规则多边形或者颜色的准确性以及纹理等都无法通过文字而准确的进行描述)。还有一点需要注意的是,由于通过人工用文本来标注的话具有很强的主观色彩,如此情况下由于描述者的差异对于相同的图像也有着理解上的差异,因而对其的描述也会产生差异(这种主观性质无法避免),所带来一定的歧义,而且通过人工标注图像特征的工作十分费时费力,一定图像内容过于丰富,其中的消耗件显得太大了而且效率十分低下,无法满足大量数据下的多媒体检索要求。
4.1.2 基于内容的图像检索
从字面意思上来看,该方法是以图像本身的视觉特征为条件而进行检索要求的方法,所谓视觉特征指图像本身所包含的图形信息比如颜色、纹理、形状等属于图像的共有特征。通过对图像的视觉特征信息的搜集建立图像特征的数据库,然后通过对实例图像的特征进行提取并且在数据库进行匹配计算以及相似特征的对比和搜索。
4.1.2.1 检索过程分析 大体上检索的过程如下:
a.检索对象的输入:简单明了,输入想要查询的内容例子,这可以是用户自身寻找的图像,但也可以是图像数据库中存在并提供的。
b.图像的预处理:对所输入的图像进行检索前的预先处理,剔除
没用的图像信息,对图像本身所含的基本信息进行简化和统一,便于进行下一步操作。
c.特征提取:对要进行检索的对象,进行基本的图像特征提取,然后作为检索依据存入数据库。
d.数据匹配:根据上一步图像特征提取所提供的检索依据,选择相应的相似度算法来比较数据库中各图像的特征与检索对象的相似度。从而找出与被检索图像的相似的图像。
e.检索结果的输出:根据相似度大小的排序以及用户的需求,来输出查询结果,这里可以将输出的结果以相似度的定量来设定输出结果的数量。
4.1.2.2 检索的方式种类
就目前的大环境来看,基于内容的图像检索算是目前主流的检索方式,所以这里重点介绍下
基于内容的图像检索的主要技术: a.基于颜色特征的图像检索 b.基于纹理特征的图像检索 c.基于形状特征的图像检索 d.基于空间特征的图像检索
图4-1内容的图像检索过程
4.2基于颜色特征的图像检索
颜色是所有图像的基本特征,它的特点是具有稳定性,不会物理位置的移动变化而改变,而且颜色特征是可以通过计算而得到的,方法相对简单,因此基于颜色的图像检索是目前最受欢迎的,目前很多主流图像检索系统都有运用到。基于颜色特征的图像检索需要解决三个问题:颜色的如何示、颜色特征的如何提取以及如何计算基于颜色的相似度量。
4.2.1颜色的空间模型
基于颜色的图像的检索要在颜色的空间的基础上才可以实现。那么颜色空间又是什么呢?其定义是指包含任意一种颜色局域中所有颜色的的可见光子集。现在在行业内所用到的的颜色空间种类繁多,但是,虽然都在运用,普遍有几个常用的:RGB空间,HSV空间CMY空间等。 (1)RGB空间
RGB空间是目前被现在的大多数硬件所使用的,它应该是被应用范围最广的颜色空间。RGB空间是用红、绿、蓝三原色作为分量,分别以R/G/B作为坐标轴的分量,建立模型。如图4-2所示。
图4-2 RGB空间颜色模型
其中原点(0,0,0)是为黑色,相对的距离最远的(1,1,1)为白色,两点之间的直线作为灰度值,虽然但GB色彩空间是应用最广的颜色模型,但是也有其严重的缺陷那就是不能与人的视觉感官特征相联系。而在在目前已知全部的色彩空间里,应该只有HSV模型是既能够适应于人类的感知特征,也能够应用于计算机硬件的颜色模型,能较好表达人类的视觉效果,其中H代表色别,S代表浓淡
度,V代表亮明暗。HSV的颜色模型如图4-3所示
(2)HSV颜色空间
Hue色别:是颜色属性里最为显著的特征用于区分不同颜色。
Value明暗度:是物体一种对光的反射现象的一种量化表述,表示物体表面对光的反射强度,可以用于对物体的视觉区分,人的视觉就是因为能够感觉明暗的变化才有办法区分物体和正常生活。
Saturation饱和度:颜色中对于某一种色调的纯度多少的描述,纯度的多少是与颜色与白光的比例有关。越纯的颜色越不参杂白光。
由于HSV颜色模型可以符合人类对颜色特征的视觉条件,并且二者之间存在一定的一致性,所以需要将RGB颜色空间转换到HSV色彩空间。 所以将RGB颜色空间转换到HSV色彩空间的转化方程如下:
因为
图4-3 Hsv颜色空间模
二者可以互相转换,所以HSV颜色空间转换到RGB颜色空间则需要以下公式:
4.2.2颜色特征的提取
由于颜色的特征与图像大小、长短没有必然联系,也不会因为其物理位移而改变,即图像颜色特征与图像尺寸和位置无关。在利用颜色的图像检索中,对于颜色特征的提取,一般可以采用颜色直方图的方法,它可以用来统计和表示图像整体的颜色分布,并且较为简单。那么如何使用呢?通过运用颜色直方图的向量,将图像颜色的分布统计,进而构建属于图像的颜色特征索引,同时用户在检索时,系统将其绘制的颜色分布图转换为与之相对应的颜色直方图。颜色直方图有很多的种类,但是目前主流的有全局直方图和分块直方图,这里也主要介绍这两种。 a.全局颜色直方图
目前使用频率最高的颜色提取方式,通过对图像全局统计,把颜色统计的结果一直方图形式表示出来。
该方法的特点:是运用统计学里的方法获得图像的颜色分布数据,并且通过直方图的形式输出用以提取出颜色特征。使分割统计的结果和全局颜色统计结果相一致。
颜色特征的量化
就是把全局的颜色分割为n个包含部分颜色范围的小型区域,每个区域对应一个直方图的柄。分辨率的数值高低对于前者空间要求存在一定的正比关系,分辨率越高的话所要求的空间也就越大。计算量也越大,同里分辨率越低,要求的空间也就越小,需要分割的区域也越少,计算量自然而然也就越少了。 b.分块直方图
是基于全局颜色直方图,对图像本身进行分割,对没一个分割出的图像区域,
进行全局颜色直方图的统计。这是一种改进。通过这种方法可以使获得的数据结果更加精细和准确。
以下是常见的集中分割方法:
图4-4 分块直方图的分割方式
4.3 基于形状的图像检索方法
4.3.1轮廓的特征提取
所有物体都有它的轮廓,这是事物的一个基本特征,毋庸置疑的是每个物体都尤其独特的轮廓。因此形状也是识别物体之间不同的重要特征。在图像检索中,有时基于轮廓的图像检索显得尤为重要,比如在军事中的地形搜索,医学中行业中的各类病症器官的形状,服装行业中各种服装款式的轮廓等等。 4.3.1.1轮廓边缘的检测提取
sobel算子,robert算子是我们在计算中经常可以用到的用来边缘提取算子等等
(1)Roberts算子
Roberts算子,是应用最简单的边缘算子,采用偏微分的方法来确定边缘它的公式式子是:
其中f(x,y)是示例图像。 (2)Krisch算子 Krisch算子
是一组三阶矩阵为元素的模板组合,他们由八个元素组合。每个模板组合分别代表了一个测试方向。测试时,将制定的元素区域和模板组合想成,求出最大值的那个模板。模板如下所示
4.3.1.2轮廓的特征提取
涉及到两方面:一是基本描述算子 二是不变矩
不变矩是一种表示方法,他通过对物体轮廓进行分割统计表征而实现。而原理其实非常简单,就是有效像素点。
二维函数F(x,y)他的积分区域s中阶矩为 (p+q)
设F分段连续函数,那么一定存在唯一的矩序列mpq ,反之如是, 中心距表达式:
然后求和:
F(x,y)的归一化中心距pq=pq4.3.2相似性度量
1, 且=(p+q)+1 ,p+q=2,3....002图像特征匹配的难点在与相似度量,在图像检索的过程中需要对图像特征的进行相似性匹配和比较,这里就需用到相似度度量。
图像特征的匹配过程中计算比较的各图像的相似性的算法
a.直方图交叉算法 b.欧式距离算法 c.余弦距离 d.相关系数
第五章大数据背景下图像检索在服装中应用
本章主要内容是首先根据现今时代的需求,大数据的各种应用进入各个行业。所以希望能够针对服装图像的特点进行深入分析,针对服装图像的颜色,款式,类别等信息,以及平常网购,消费者的购买习惯做出研究和分析。并且在基于图像检索的技术上进行思考,设计针对服装图像内容的检索提出改进,那么图像检索技术在服装行业中,具体该如何应用。其检索方法大都是基于对图像内容进行检索,得到结果之后,找到这些结果中比较明显的特征,对其进行分析,并将这些作为一个TAG进行标注,如此一来,一旦从检索中得到相似的TAG,我们就可以知道这与这一服装相匹配的款式和颜色信息。
5.1基于大数据技术背景下的服装检索的设计
首先大数据技术技术下,海量的数据资料成为值得挖掘的财富,而如今,作为纺织大国的中国来说,让服装产业与大数据相融合,将产生的化学效应,无可估量。
对于大数据与服装检索,我有以下几点思路: a.服装图像数据的采集 b.服装图像数据库的建立 c.服装图像的检索
5.1.1服装图像数据的采集
大数据在数据的在数据的采集方面有许多方法,一般现在运用的较为主流的方法有:
(1)日志采集的方法
所谓日志采集的方法,就是通过互联网公司的数据采集工具对于计算机系统及设备上的日志进行获取和收集的方法。通过此种方法能够获得每天使用设备的用户的浏览记录,以及关注的信息等等。从中对其进行分析和存储,并挖掘出价值。一般都采用hadoop之类的采集工具进行采集,每天在网上的用户往往有成千上万,要对如此庞大的数据进行采集很有难度,而利用具有分布式架构的工具,能在不同设备上同时快速的进行采集大规模的数据。 (2)网络数据的采集方法
网路中每天产生的数据规模庞大,往往并非是结构化的数据,而是零碎且类型众多的非结构话数据。一般会通过网络爬虫之类的方法,从网页中抽取半结构化数据,然后统一在本地进行结构的存储。
可以通过以上两种方法对互联网上针对服装类的图片进行识别,进而进行采
集和存储。
5.1.2服装数据库的建立
那么,如何建立服装图像数据库呢?包括以下几方面:
首先,将运用上述两种方法采集到的图片统一进行预处理;然后,对图像进行简单的分类将属于服装类的图片挑选出;接着,再将对图片进行简单的信息剔除,将与服装图像内容无关的部分删除。然后对服装图像本身进行特征提取并对图像特征进行编码标注最后存入数据库。
5.1.3服装图像的检索
服装组成的要素有颜色,款式和面料。针对这三个特点,我通过对基于内容的图像检索的研究和分析,将图像检索技术应用在服装图像检索上。
5.2 基于颜色特征的服装图像检索
颜色是服装的基本组成要素,在基于颜色的服装图像检索需要解决好以下三个问题。
a.颜色空间模型选择
要对以颜色为内容的图像检索,首先要选取合适的基本模型,因为需要考虑到视觉的一致性等因素。所以合适的基本模型十分重要,一般有RGB以及hsv等可供选择,但是主流的,被普遍使用的是前者。
b.颜色的量化
将颜色量化,可以避免在检索中产生的错误率,因为在不同的颜色模型下,因为条件的不同,同一副画可能产生不同的结果。
5.2.1颜色空间的选择
RGB模型和HSV颜色空间模型都是现目前运用最为普遍的几种,都具有各自的有点。但是,HSV模型更加符合视觉特征对颜色的要求,所以本文决定选择它为图像的颜色空间。
5.2.2对颜色空间量化
对颜色空间的量化的方法有很多,下面以六三色量化方法作为例子。
用该方法将图片颜色分区。为了运算简便,可以用公式:
进行运算其中a、b、c是三个分量的权重。
5.2.3图像颜色特征的提取
颜色的模型和量化决定好以后,就可以利用直方图的方法来对颜色特征进行提取了。在上文已经提到过,直方图分为两种方法一种是全局直方图,而另外一种则是分块直方图,为了使得到的数据更加精确,本文选择了分块加权直方图来进行提取,并且对图像的分块要按照服装款式的特点来进行划分,考虑到各方面因素,划分方式如下图所示。
图5-1 划分方式
因此通过对标号的每个区域的颜色量化后得到各个区域的特征向量,有
Li=.....LijLi1Li2,,其中i=1,2,…..9,j为量化后的特征量。然后通过权重分析,使用的距离公式为:
3.相似度量
相似度度量的算法,需要根据不同类型的图像来选择,一般我们采用欧几里得算法,较为方便计算。
5.2.4实验结果分析
通过对上述论述的研究实验,选取了一个容量为500的服装图像数据库作为测试用,从中进行实验以T恤为例,检索结果明显如图所示。
5.3基于款式特征的服装检索
图5-2 基于颜色的检索实验结果
款式作为服装的一个最重要的元素,在服装中有着举足轻重的地位。对服装款式的检索的研究,对服装行业的发展有着十分重要的作用。而要做好服装款式的图像检索,需要先克服以下几个问题:
a.算子的选择
算子的种类十分繁多,然而要针对服装的特点来分析,通过对其结构的了解和研究,以及各部分算子的比较,最终决定,还是选择以Sobel算子来进行这次检索分析。
b.图像的边缘提取
对于物体轮廓特征的表示有几大类,其中有不变矩,多边形矩,以及正交矩等等。根据不同的轮廓特征,应该选择合适的表示方法才行。
c.相似度量的选择。
相似度度量的算法,需要根据不同类型的图像来选择,一般我们采用欧几里得算法,较为方便计算。
5.3.1款式内容的检索分析
首先边缘算子的经典类型,刚刚已经说过了,每种都各有奇点。而在本文当中,基于对服装款式的分析和总结,并且数据库中都是经过简单预处理的服装图像。所以最终选择了SOBEL算子来作为此时实验的算子。
Sobel的算子,是通过对图像中全部的像素点与作为基础的模板进行卷积运算,并取其计算结果中的最大结果输出。
(2)边缘检测步骤
一般情况下:边缘检测时,需要有这么几个步骤,首先是滤波,通过这个步骤对图像进行降噪处理,但这个有缺陷是,执行的同时,边缘可能会被损失。然后是增强,这个步骤是将域里的灰度突出,然后是检测,最后是定位。
(3)边缘特征
对边缘特征的表示方法,本文中,通过对服装款式的特点分析,以后决定采用HU不变矩作为特征描述。
将特征提取后,通过归一化方法对图像的特征进行归一处理。 (4)相似度的度量
本文中采用的方法是以欧几里得距离作为相似度度量用来作为比较。
5.3.2实验结果分析
通过上述的原理及方法,选取了一个容量为500的服装图像数据库作为测试用,从中进行实验以长袖上衣为例,检索结果明显如图5-3所示。
图5-3 款式图像检索实验结果
虽然运用sobel的算子的检测结果稍有不足,背景有点模糊,但是结果还是算可以接受,连续性可以。
第六章 展望和总结
本文通过对大数据以及内容方面的图像检索进行了研究和实验,通过对检索方面的原理的剖析以及研究,对图像检索在大数据方面的应用有一些设想,并且通过设计和实验对其进行验证,得到了些许成果。通过本文的正文内容已表述。 同时通过对这方面数据的研究及分析,我大胆的对于未来检索技术进行一些猜测,也许未来的发展趋势将会是这样的:通过大数据技术的推动下,以及移动网络技术的发展,人们以后在日常生活中就可以通过手机客户端对服装乃至是任何图像进行检索。只要通过移动设备连接相应引擎,通过设备上的摄像功能拍摄想要搜索的内容,并且发送至服务器,系统将会实时进行运算和检索,得到用户所需要的结果。这是一种大胆的设想,但是也许在未来的某一天真的可以实现,我期待那一天的到来。
而且通过这次论文的经历,使我对以后该如何自主学习,以及研究问题,有着深刻的影响。同时在这次论文的写作中,深刻了解到,对于所研究的方向还有很多的不足,图像检索的路还很长,尤其是现在的技术,日新月异,该技术一定会发展的越来越远,这一点我深信不疑。相信有一天图像检索的发展能达到,只是通过一句话就可以得到自己想要的图像讯息,到那时候,再回过头看看现在,也许又会不一样了。信息高速发展,这样的环境下,时刻提醒着我,只有不断学习新的知识,才能不被时代所抛弃,生于危难,死于安乐,越是成长,越是意识到不能懈怠。活到老学到老。这句话在今天的社会里更加的深刻。相信在未来还有更美好的时代等着我们。
因篇幅问题不能全部显示,请点此查看更多更全内容