网站权重

出海帆 / 问答 / 标签

如何写robots.txt文件才能集中网站权重

如何写robots.txt文件才能集中网站权重?一:什么是robots协议robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。u2022 Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。u2022 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。淘宝利用robots屏蔽了百度蜘蛛的抓取淘宝的robots协议 二:robots.txt放置位置robots.txt文件应该放置在网站根目录下。例如,当spider访问一个网站(比如 http://www.taobao.com)时,首先会检查该网站中是否存在http://www.taobao.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。 三:robots.txt文件的写法操作步骤:1.新建一个文本文档,命名为robots.txt2.开始写robotsUser-agent: * (*针对所有搜索引擎)Disallow: / (禁止爬取所有页面,/代表目录)Disallow: /admin/ (禁止抓取admin目录)Disallow: /admin (禁止抓取包含admin的路径)Allow: /admin/s3.html (允许抓取admin目录下s3.html文件)一个“/”表示路径,两个“/”表示文件夹Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)Disallow: /.css$ (禁止抓取所有带.css的文件)sitemap:*** 注意:u2022 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写u2022 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。