如何编写robots.txt文件
用户代理:*此处的所有*代表
搜索引擎类型,*是一个
通配符不允许:/admin/此处的定义是禁止对管理目录下的目录进行爬网
不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网
不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网
不允许:/ABC此处的定义是禁止对整个ABC目录进行爬网
不允许:/cgi-bin/*。htm禁止访问所有带后缀“.”的网址(包括子目录)。在/cgi-bin/目录中。
不允许:/*?*禁止访问所有网站
动态页面不允许:。jpg$禁止抓取所有网页。
jpg格式的图片
不允许:禁止在adc.html的文件夹下抓取所有文件
用户代理:*此处的所有*代表
搜索引擎类型,*是一个
通配符允许:/cgi-bin/这里的定义是允许爬行
cgi-bin目录以下目录
允许:/tmp这里的定义是允许对tmp的整个目录进行爬网
允许:。htm$只有带后缀的网址”。htm "被允许访问。
允许:。gif$允许抓取网页和gif格式的图片
用法示例:
1.允许
允许所有机器人访问
用户代理:*允许:/或用户代理:*不允许:
2.禁止所有搜索引擎访问网站的任何部分
用户代理:*
不允许:/
3.只有Baiduspider被禁止访问您的网站
用户代理:Baiduspider
不允许:/
4.只有Baiduspider允许访问您的网站
用户代理:Baiduspider
不允许:
5.禁止spider访问特定的目录
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
6.允许访问特定目录中的某些网址
用户代理:*
允许:/CGI-bin/请参见
允许:/tmp/hi
允许:/~ Joe/看
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
7.使用“*”限制对网址的访问
访问所有带后缀的网址(包括子目录)。禁止在/cgi-bin/目录中使用“htm”。
用户代理:*
不允许:/cgi-bin/*。html文件的后缀
8.使用“$”限制对网址的访问
只有带后缀的网址”。htm "被允许访问。
用户代理:*
允许:。htm$
不允许:/
例9。禁止访问网站中的所有动态页面
用户代理:*
不允许:/*?*
10.Baiduspider禁止抓取网站上的所有图片
只允许抓取网页,不允许抓取图片。
用户代理:Baiduspider
不允许:。jpg$
不允许:。jpeg$
不允许:。gif$
不允许:。png$
不允许:。bmp$
11.只有Baiduspider被允许抓取网页和图片。gif格式
网页和gif格式图片允许抓取,其他格式图片不允许抓取