robots协议书(也称网络爬虫协议书、智能机器人协议书等),“全名是爬虫技术清扫标准“(Robots Exclusion Protocol) ,网址历经robots协议书通告百度搜索引擎什么页面可以抓取,什么页面不可以抓取。
Robot.txt的实际效果?
可以让蜘蛛更高效率的匍匐网址
可以阻碍蜘蛛匍匐动态性页面,进而解决反复入录的难题
可以减少蜘蛛匍匐失效页面 ,节省网络带宽
可以屏蔽掉百度搜索引擎屏蔽掉一些隐私保护页面或是临时性页面
如何开创robots.txt文档呢?
右键桌面上——新建文本文档——重新命名为robots.txt(一切文档有必要小写字母)——撰写老规矩——用FTP把文档上(放进网站根目录下)传入室内空间
开创robots.txt要求注意的知识要点:
1 、有必要是txt完毕的纯文本文档
2、文件夹名称一切英文字母有必要是小写字母
3、文档有必要要放到网站根目录下
4 、文档内的灶具有必要显示英文半角情况下
二:robots主要参数解說
User-agent
主要实际效果:用以勾勒百度搜索引擎蜘蛛的名字
举列:
1 、勾勒一切蜘蛛
User-agent:*
2、勾勒百度搜索蜘蛛
User-agent:BaiduSpider
百度搜索:BaiduSpider
Google:Googlebot
搜狗搜索:Sogou web spider
好搜:360Spider
MSN:MSNBot
有道:YoudaoBot
宜搜:EasouSpider
User-agent方法:
1、当robots.txt不以空的时段 ,有必要最少有一条User-adent记述
2 、同样的名字,只有有一条(比如User-agent:*),但是不一样蜘蛛 ,可以有好几条记述(比如:User-agent:Baiduspider和User-agent:Googlebot) 。
Disallow
主要实际效果:用以勾勒不答应百度搜索引擎匍匐和抓取的URL。
应用方法:
1、在robots.txt中最少要有一条Disallow
2、Disallow记述为空,则表达网址一切页面都答应被抓取。
3 、应用Disallow,每一文件目录有必要独自一人隔开申明
4、注意Disallow:/abc/(abc文件目录下边的文件目录不答应抓取 ,但是文件目录下边的html答应抓取)和Disallow:/abc(abc文件目录下边的文件目录跟html也不答应被抓取)的差别
深圳市SEO全文连接:http://wenhua.seogurublog.com/220.html