- 电商模式术语:ABC、B2B、B2C、C2C、B2M、M2C、B2A、C2A、O2O
- C#中SortedDictionary 的使用
- SEO如何优化好网站?SEO有哪些优化网站的方法?
- 网站URL太长有什么不好
- 网站不带www为什么要比带www的收录要多一些
- sql里的null和空的区别
- 企业网站优化的四个步骤
- ElementUI核心标签以及在Vue中的使用
- foreach遍历中加&什么意思
- VMware安装CentOS7配置网络
邮箱:
手机:15383239821
robots文件的写法解析
一、什么是robots.txt文件?
robots.txt文件是搜索引擎在访问你的网站前,会查看的一个文件,它会告诉搜索引擎哪些内容可以访问,哪些内容不可以访问,当它要访问一个网站时会先检查是否存在robots.txt,如果有会按照这个命令进行访问有权限的内容。
二、为什么要写robots?
网站为了SEO的优化,robots.txt会屏蔽掉一些不想被抓取的内容,可以保护网站的安全,也可以节省一些流量,对蜘蛛也会方便一些,引导蜘蛛爬网站地图。
三、robots的基本写法与步骤
1、允许所有搜索引擎访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(也可以直接建一个空文件 “robots.txt”然后放到网站的根目录。User-agent: 是定义搜索引擎,“*”是表示所有。)
2、禁止所有搜索引擎访问
User-agent: *
Disallow: /
或者
User-agent: *
allow:
(Disallow: /表示禁止访问,Allow: /表示允许访问,需要注意的是,/前面有个英文状态下的空格。)
3、禁止所有搜索引擎访问网站中的几个文件夹,我以a、b、c目录来代替
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
如果是允许,则是
Allow: /a/
Allow: /b/
Allow: /c/
4、禁止某个搜索引擎的访问,我用w来代替
User-agent: w
Disallow: /
或
User-agent: w
Disallow: /d/*.htm
在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
5、只允许某个搜索引擎的访问,我用Baiduspider为例
User-agent: Baiduspider
Disallow:
在Disallow:后面不加任何东西,Baiduspider表示百度蜘蛛,Googlebot表示谷歌蜘蛛,意思是仅允许Baiduspider访问该网站。
6、使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意思是仅允许访问以”.htm”为后缀的URL
7、禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
8、禁止搜索引擎F抓取网站上所有图片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
9、只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
上面的意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片。
四、robots注意事项
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。在写robots.txt文件时User-agent、Disallow、Allow、Sitemap这些词第一个字母要大写,后面的字母小写,”:“后面是英文状态下的空格。站长想查看网站robots.txt文件是否生效,可以在百度统计中查看。
-
2011-08-04一套.net窗体身份验证方案(解决了防止用户重复登陆,session超时等问题)
-
2010-12-09什么是H1标签,网站优化时怎么使用H1标签?
-
2010-08-09从零开始学习jQuery (四) 使用jQuery操作元素的属性与样式
-
2012-07-02网站标题、关键词、描述的设置及注意
-
2012-06-3013条秘籍让您的网站永远做百度的亲密爱人
-
2010-07-20将ACCESS转化成SQL2000的方法和注意事项
