有时候大家在创建某些网站,但鉴于其具有某些不适合内容被发现,亦或担心自己的隐私会被搜索引擎搜刮的一干二净?
我相信大多数网站站长都希望自己的网站被搜索引擎收录,但也不希望一些内容暴露出来,因此在这种矛盾影响下,robots.txt
的作用就凸显出来了。
?简介
?搜索引擎如何工作?
搜索引擎依靠的庞大的网页数据库。按搜索方式可以分为 全文搜索
和 目录搜索
两种。
名称 | 解释 |
---|---|
全文搜索 | 索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 |
目录索引 | 将网站分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。 |
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而 且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
?什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt
的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt
,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
?robots.txt文件放在哪里?
robots.txt
文件应该放置在网站根目录下,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
⚙️安装
创建名为robots
的txt
格式文件 ,并在其中添加代码,放在网页根目录即可。
推荐此工具生成robots文件:?robots文件生成
?代码
?禁止所有搜索引擎访问、收录网站的任何部分
User-agent: *
Disallow: /
?允许所有搜索引擎访问、收录网站的任何部分
User-agent: *
allow: /
?禁止某个搜索引擎的访问、收录网站的任何部分
User-agent: 搜索引擎的机器人蜘蛛名称
Disallow: /
?只允许某个搜索引擎的访问、收录网站的任何部分
User-agent: 搜索引擎的机器人蜘蛛名称
allow: /
User-agent: *
Disallow: /
?禁止访问网站某些目录
User-agent: *
Disallow: 网站目录
?允许访问网站某些目录
User-agent: *
Allow: 网站目录
?禁止访问某些目录下的所有xx后缀的文件(包含子目录)
User-agent: *
Disallow: 网站目录/*.文件后缀
?使用”$”仅允许访问xx后缀的文件
User-agent: *
Allow: 网站目录/*.文件后缀$
Disallow: 网站目录
?禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
?禁止搜索引擎抓取网站上所有图片
User-agent: 搜索引擎的机器人蜘蛛名称
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
?仅允许搜索引擎抓取网页和gif格式图片
User-agent: 搜索引擎的机器人蜘蛛名称
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
?仅禁止搜索引擎抓取jpg格式图片
User-agent: 搜索引擎的机器人蜘蛛名称
Disallow: /*.jpg$
?各个搜索引擎的机器人蜘蛛名称
百度蜘蛛 | Baiduspider |
---|---|
百度抓取图片蜘蛛 | Baiduspider-image |
谷歌蜘蛛 | Googlebot |
360蜘蛛 | 360Spider |
SOSO蜘蛛 | Sosospider |
有道蜘蛛 | YoudaoBot |
搜狗蜘蛛 | Sogou News Spider |
必应蜘蛛 | bingbot |
一搜蜘蛛 | YisouSpider |
Alexa蜘蛛 | ia_archiver |
宜搜蜘蛛 | EasouSpider |
即刻蜘蛛 | JikeSpider |
⚠️注意
?在robots.txt中设置了禁止百度收录网站的内容,为何还出现在百度搜索结果中?
如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。