拒绝搜索引擎抓取页面:robots.txt
日期:2008年4月10日 作者: 查看:[大字体 中字体 小字体]-
有些时候,我们建立的一些网页,不希望被网友通过搜索引擎找到,该如何做呢?本文介绍了如何使用robots.txt防止搜索引擎抓取页面的一些技巧。
Robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。
如何放置 Robots.txt 文件
robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。
这里举一个robots.txt的例子:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
使用 robots.txt 文件拦截或删除整个网站
要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: *
Disallow: /
要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: Googlebot
Disallow: /
每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。
对于 http 协议 (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
对于 https 协议 (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
允许所有的漫游器访问您的网页
User-agent: *
Disallow:
(另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)
使用 robots.txt 文件拦截或删除网页
您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:
User-agent: Googlebot
Disallow: /private
要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:
User-agent: Googlebot
Disallow: /*.gif$
- [1] [2] 下一页
-
- 拒绝搜索引擎抓取页面:robots.txt 相关文章:
- ·实例详细讲解ASP生成静态页面方法
- ·使用HttpURLConnection访问web页面
- ·关于ASP.NET页面打印技术的总结
- ·.Net环境下有关打印页面设置、打印机设置、打印预览对话框的实现
- ·用ASP实现登陆页面控制的源代码
- ·jsp页面显示数据导出到excel表中
- ·ASP.NET生成静态页面实现方法
- ·在一个jsp页面实现二级下拉框联动,实时读取数据库数据
- ·使用模板实现ASP代码与页面分离
- ·在Flex中嵌入完整HTML页面
- 拒绝搜索引擎抓取页面:robots.txt 相关软件
- ·HTML页面修改注册表解密
- 特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作
- 者.文章版权归文章原始作者所有.对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转
- 载的文章有版权问题请联系编辑人员,我们尽快予以更正. 转载请注明来源:http://www.hackhome.com
下一篇:查出谁把你从MSN删除 是骗局
精品推荐
热点TOP10
- ·什么是人肉搜索引擎
- ·超级P2P搜索引擎让所有收费网站破产
- ·搜索引擎使用技巧
- ·网站结构分析
- ·图王正在出售的域名列表
- ·“x365x”“纯爱社区”关键词及搜索引擎作风
- ·国外搜索引擎介绍----Overture
- ·利器:十大高明的Google搜索技巧
- ·六大搜索引擎谁执牛耳
- ·搜索引擎优化培训教程
- ·做个自己站内搜索引擎
- ·日志里搜索引擎机器人的名称大全
- ·中文站点 500 强 二零零五年 第 43 期
- ·世界各大搜索引擎的蜘蛛名称列表
- ·中国搜索引擎综合指数参考
- ·面向搜索引擎的网站设计
- ·中文搜索引擎技术揭密:网络蜘蛛
- ·几款开放原代码搜索引擎
- ·不同软件代理服务器设置方法
- ·基本搜索技巧十条
