Robots的使用&搜索引擎是如何工作的

No Comment

11 1 月 2013

Robots的使用&搜索引擎是如何工作的

1.Robots.txt是一个文本文件，关键是这个文件所在的位置：在网站的根目录下。

遵循语法的Robots.txt才可能被机器人识别，至于语法，介绍起来很繁琐，现简单举例如下：

1）禁止所有搜索引擎访问网站的任何部分（也就是网站彻底的拒绝所有搜索引擎收录）

User-agent: *

Disallow: /

2）允许所有的robot访问（也就是网站允许所有搜索引擎收录）

User-agent: *

Disallow:

3）禁止某个搜索引擎的访问（比如禁止百度收录，按如下的方式写）

User-agent: baiduspider

Disallow: /

4）允许某个搜索引擎的访问（比如允许百度收录，按如下的方式写）

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

5）禁止搜索引擎访问某些目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /images/

所有语句都是单规则的，即每行仅声明一条规则

3.搜索引擎如何工作

按搜索方式可以分为全文搜索和目录搜索两种。

所谓全文搜索，是搜索引擎通过从网页自动提取信息来建立数据库的过程。至于提取的原理，就是SEO狂热者们所研究的算法，在他们的理想情况下，网页应该是针对搜索引擎设计的，具有最好的收录效果。当然，不是本文的话题。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

与全文搜索引擎相比，目录索引有许多不同之处。目录索引完全是手工操作的。

首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。

其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引，登录更是困难。

最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。

目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。