您的当前位置:首页正文

互联网与搜索引擎

来源:个人技术集锦


互联网与搜索引擎

第一节:互联网

互联网(internet),即广域网、城域网、局域网及单机按照一定的通讯协议组成的国

际计算机网络。

首先,互联网是全球性的;其次,互联网上的每一台主机都需要有“地址”;最后,这些主机必须按照共同的规则(协议)连接在一起

互联网、因特网、万维网三者的关系是:互联网包含因特网,因特网包含

万维网。凡是能彼此通信的设备组成的网络就叫互联网。所以,即使仅有两台机器,不论用何种技术使其彼此通信,也叫互联网。

因特网是互联网的一种。因特网可不是仅有两台机器组成的互联网,它是由上千万台

设备组成的互联网。因特网使用TCP/IP协议(就是网络数据之间的联系, TCP/IP 定义了电子设备如何连入因特网,以及数据如何在它们之间传输的标准。)让不同的设备可以彼此通信。但使用TCP/IP协议的网络并不一定是因特网,一个局域网也可以使用TCP/IP协议。判断自己是否接入的是因特网,首先是看自己电脑是否安装了 TCP/IP协议,其次看是否拥有一个公网地址(所谓公网地址,就是所有私网地址以外的地址)。

首先,右击“网上邻居”,选择“属性”;然后,在打开的窗口中找到“本地连接”,右击,选择“属性”;第三,在弹出的对话框中,选择“Internet协议”,点击“属性”。

或者win+R或者打开开始”-“运行”,输入“cmd”,在输入“ipconfig

因特网是基于TCP/IP协议实现的,TCP/IP协议由很多协议组成,不同类型的协议又被放在不同的层,其中,位于应用层的协议就有很多,比如FTP、SMTP、HTTP。

只要应用层使用的是HTTP协议,就称为万维网(World Wide Web)。之所以在浏览器里输入百度网址时,能看见百度网提供的网页,就是因为您的个人浏览器和百度网的服务器之间使用的是HTTP协议在交流。

搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在

对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。

全文搜索引擎是广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的

百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户,查询条件相匹配的记录,按一定的排列顺序返回结果。

在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

百度入口:http://zhanzhang.baidu.com/sitesubmit/index Google: http://zhanzhang.baidu.com/sitesubmit/index

PV与IP比

实际上就是每个IP浏览的页面次数,同时代表了单个IP浏览的页面深度。试想一下,一个每个IP进入只看一遍页面就退出的网站怎么能称之为好的网站?很多所谓的大流量垃圾网站纯粹是为了流量而做很多的长尾关键词,每天能来1万个IP,却只能拥有2万的PV,那些泛滥的垃圾文章虽然因为搜索引擎瞬时表现不错而吸引了大量的新用户,却因为内容没有任何吸引的地方马上关闭网页,搜索引擎必将记录在案,下次更新时降低权重。因为搜索引擎当然是为用户的角度着想,你如此的“伤害”用户,搜索引擎当然放不过你。

目录索引

目录索引也称为分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。 虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪、搜狐(搜狗)分类目录搜索。

工作原理 第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。 第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。 第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。 ⒈提取文字

⒉中文分词 ⒊去停止词

⒋消除噪音 搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等 5.正向索引 6.倒排索引 7.链接关系计算 8.特殊文件处理

除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。 第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。 如何屏蔽搜索引擎

你在网页头文件中加入下面一行就可以屏蔽搜索引擎了!

要注意的是:Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。 例如:

一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够更多更有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。

在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。

根据搜索引擎的发展,我们需要作出以下准备

搜索关键词提炼

选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。

搜索逻辑命令

搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。 精确匹配搜索

除利用前面提到的逻辑命令来缩小查询范围外,还可使用\"\"引号(注意为英文字符。虽然一些搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索) 特殊搜索命令 标题搜索

多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。

网站搜索

此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。

链接搜索

在Google中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。 domain命令:

百度:查网页内容中包含某关键词的命令。如“domain:美赞拓”搜索结果是包含关键字词组(美赞拓)的所有网页。同理,domain:seo 指的是包含seo的所有网页,与直接搜索SEO相似。可以用来查找有多少个网页内容中包含你的网址,一般来说包含你网址的网页都属于站点的反向链接,所以这个命令一定程度上被误使用为查询网站的反向链接。

Google:domain 并不代表一个指令。只是一个普通的关键字。 Yahoo:与 site 一样,都是查找域名下的所有收录网页。 link命令:

百度:link 并不代表一个指令,只是一个普通的关键字。link: 美赞拓搜索结果是包含这样一个关键字(美赞拓)词组的所有网页,与其他普通关键词的搜索一样。并不是查找反向链接。

Google:查找的是反向链接,但只包含网站所有反向链接的少部分。Google网站管理员工具可以查网站的所有反向链接。

Yahoo:查找的是反向链接,但需要在域名前加 \"http://\",如:link:http://www.mazentop.com 注意:域名加与不加\"www\"结果是不一样的。

站内优化

1.网页标题和META标签

⑴网页标题(TTTLE)。这里说的标题是指网页中的HTML。

⑵META标签。此标签的重要作用就是为搜索引擎的蜘蛛或机械手检索网页做准备,一些搜索引擎就是根据源代码中META标签所设定的关键词来检索和排序的。

2.网页主体(BODY)

网页主体是浏览器可以看到的全部内容,在HTML代码中位于标签之下,即网页的全部内容。

⑴统一资源定位(URL)。URL即通常所说的网址,因此可以构造一个含有关键词的网址,并将这个网址提交给搜索引擎。

⑵构造关键词。META标签中的关键词对搜索引擎产生直接作用,一般来说,可以在两类关键词中选择:一类是简短、有力的,排列位置可以稍微靠前,但词汇数量少:另一类是范围较宽、数量较多的关键词,排列顺序可能稍后靠。

⑶对网站的描述。需要描述的是自己的网站而不是公司,目的是为了让访问者对网站有进一步的了解,已决定是否继续到你的网站获取进一步的信息。 3.提交你的网站

当上述准备工作就绪,就可以正式注册了。注册时进入搜索引擎登录页面,按照网站要求填写相应内容提交即可。 4.网站注册后的跟踪管理

在向搜索引擎提交注册表单之后,如果超过了搜索引擎正常的更新周期,你的网站仍然没有被收录,应再一次注册。

站外推广 下次继续!

因篇幅问题不能全部显示,请点此查看更多更全内容