VPS参考测评推荐
专注分享VPS主机优惠信息
衡天云优惠活动
华纳云最新优惠促销活动
jtti最新优惠促销活动

WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化

locvps
主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情!
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作

昨天,WordPress 交流群里有人提到“如何防止搜索引擎索引 WordPress 网站”的必要性。大多数人都希望被搜索引擎收录,而少数人由于特殊需要和特殊原因不希望搜索引擎找到他们。,这个时候我们应该怎么做?在这里,主机参考将根据自己的需要与大家分享如何编写和优化robots.txt文件。

WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化-主机参考

robots协议配置

首先,我们要使用robots.txt文件,那么什么是robots呢?

机器人是网站和爬虫之间的协议。它以简单直接的txt格式文本的方式告诉对应的爬虫允许的权限。也就是说,robots.txt 是访问网站时在搜索引擎中查看的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查站点根目录中是否存在 robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,那么 all 的搜索蜘蛛将能够访问该站点上没有密码保护的所有页面。

在 robots.txt 文件中,Disallow 是禁止的,Allow 是允许的。您可以根据需要增加或减少。

WordPress 默认robots配置,大多数人可以使用以下配置。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化
// https://zhujicankao.com/66379.html
User-agent: *
Disallow: 
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://zhujicankao.com/sitemap.xml

这一段的意思是对所有搜索引擎采取一种默认的态度。我不允许或拒绝。我喜欢爬,但是 /wp-admin/ 目录不允许你爬!但是,因为/wp-admin/admin-ajax.php文件经常用于交互,所以单独允许。最后一句告诉搜索引擎,我的站点地图地址,你可以根据我的地图快速爬取。

WordPress禁止国内搜索引擎爬取配置

有些内容是国内人估计找不到的,下面的配置就可以了。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化
// https://zhujicankao.com/66379.html
User-agent: Baiduspider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.zhujicankao.com/sitemap.xml

Disallow是禁止的,也就是说User-agent是百度,搜搜,搜狗,有道都不允许爬我的网站。当然,你可以根据自己的需要加减。毕竟,还有很多普通人不知道的小蜘蛛。是的,所以您需要通过在后台检查 User-agent 请求标头来添加它,并将其设置为 Disallow。此设置不会影响国外搜索引擎的索引。

但是如果搜索引擎不符合,就得用杀手锏了,请查看文末的进阶教程!

不太擅长优化 WordPress 配置

为什么说这里有“优化程度较低的 WordPress 配置”?因为主机参考经常在群里听到“我*,昨天某个蜘蛛又爬了我的服务器……”等等。因此,如果您不愿意或无法优化您的 WordPress 网站,那么您可以使用以下robots配置。

// WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化
// https://zhujicankao.com/66379.html
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search/
Disallow: /?s=
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sle.php
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /comments/
Disallow: /attachment/
crawl-delay: 5
Allow: /wp-admin/admin-ajax.php
Sitemap: https://zhujicankao.com/sitemap.xml

这是在默认基础上配置的。crawl-delay 启用了传说中的 5 秒屏蔽,但这是蜘蛛的 5 秒屏蔽,它告诉搜索引擎蜘蛛在每次爬行前等待几秒钟。当然,你甚至可以设置10秒、30秒、9999999秒(最好是屏蔽)。

/search/ 或 /?s= 是为了防止蜘蛛爬行和搜索。很多小伙伴不会优化WordPress。一旦访问者或蜘蛛搜索,CPU 就会被填满。这时候可以通过升级服务器来解决问题,或者尝试对WordPress进行优化(

禁止爬取/readme.html、/licence.txt、/wp-config-sle.php是为了防止他人未经授权查看您使用的WordPress版本等信息,您也可以在此处重定向。

/feed、/*/feed、/comments/feed三兄弟是为了防止爬虫爬取你的rss订阅内容。当然,你也可以直接在 WordPress 后台关闭 rss 订阅。一般来说,rss页面对服务器的要求不是很高,一般不需要设置。

/comments/ 是为了防止蜘蛛爬取你的评论内容。如果你的站点评论很多,并且没有设置内存缓存或者 Nginx 缓存,那么每个评论页面服务器都必须生成一个页面,自然 CPU 负载会很高。

/attachment/ 是防止附件内容,即 WordPress 媒体库内容。

总之,简而言之,大部分人不需要设置以上配置。如果真的需要配置的话,毕竟大部分站长都是要流量的!哦,对了,记得把上面的Sitemap地址改成自己的!

禁止搜索引擎爬虫高级版

添加代码防止百度在你的 header.php 文件中包含快照:

<meta name="Baiduspider" content="noarchive">

不过百度不一定遵守机器人规则,可能还是会被收录,那就用下面的终极方法吧!

如果你使用的是Nginx,主机参考以宝塔为例,在站点配置中插入如下代码:

if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {
return 403;
}

长按保存(尝试重启Nginx),如有错误请根据错误修改!这时候去站长工具测试一下效果,看看是否返回403码。

这几篇文章你可能也喜欢:

本文由主机参考刊发,转载请注明:WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化 https://zhujicankao.com/66379.html

【腾讯云】领8888元采购礼包,抢爆款云服务器 每月 9元起,个人开发者加享折上折!
打赏
转载请注明原文链接:主机参考 » WordPress根据实际需求优化robots配置,WordPress网站怎么利用robots.txt文件进行SEO优化
主机参考仅做资料收集,不对商家任何信息及交易做信用担保,购买前请注意风险,有交易纠纷请自行解决!请查阅:特别声明

评论 抢沙发

评论前必须登录!