- 小程序开发中 40029 invalid code错误
- saas管理软件
- 从外部的js文件中获取ASPX页面的控件ClientID(get control reference from external javascript)
- 如何使用 C# .NET 在 ASP.NET 应用程序中实现基于窗体的身份验证
- 微信小程序直播开发
- .NET WebAPI中FromRoute、FromQuery、FromBody的关键角色与用法
- C# 中的常用正则表达式总结
- 网站的内容可以给我们带来什么呢?
- asp文件的加密解密
- js中的gettime方法的用法
邮箱:
手机:15383239821
怎么使用robots.txt控制搜索引擎抓取文章
搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取,这时候,就需要robots.txt。
robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(蜘蛛)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。robots.txt的设置如下:
User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径
如设定所有的spider都能够搜索及抓取整个网站。
User-agent: *
Disallow:
如拒绝Google搜索及抓取整个网站,但允许其它的
User-agent: Googlebot
Disallow:
如拒绝所有的Spider
User-agent: *
Disallow: /
如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件
User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html
如拒绝google搜索及抓取protect目录及seo目录下abc.html文件,但允许其他的
User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html
很简单吧?另有一点请记住,搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。
-
2023-08-27->是什么意思?
-
2012-06-30大站做内链小站做外链
-
2011-05-02上传文件代码以及FileUpload1.HasFile总是报错问题解决办法
-
2019-01-26C#中写xml 文件头部定义
-
2012-12-31关于Ajax 错误:sys未定义解决方法
-
2020-07-29百度SEO优化快速排名的技术及原理
