VPS参考测评推荐
专注分享VPS主机优惠信息
衡天云优惠活动

采集网站,如何快速去除网站里的404页面?

主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情!
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作

www.xxx.com/1.html  
……
www.xxx.com/400000.html  

火车头想采集一个站点,有40万个页面,但里面起码有一半的页面是404页面,直接火车头采集会浪费大量的时间。
请教各位大佬,有什么办法能快速的判断并筛选出正常的页面(非404的页面)?

各路大神的回复:

注册: 当我没说

FDD: 你会自己写程序就很简单,不会就很难了

lna: 就是不会写,所以问下LOC大佬有什么工具推荐没有!

一个不知名网友: 不懂,帮顶。 我很想知道 1、你采集的站被百度收录了吗?如果收录了你,你采了还会收录你的吗?加入伪原创吗?怎么加的? 2、你的采集目标站如果没被百度收录 ,那么你是怎么找到的??

FDD: 看看 404 页面有什么特征….

skyboy0671: 在采集的时候跳过空白内容就行

FDD: 有特征,就是看有什么工具推荐没?

wgetrc: 采集至少得留间隔时间,例如间隔时间5s,那20万个404页面也就占了不少时间。 所以问下LOC的大佬,是否有什么工具能先判断筛选出来。

这几篇文章你可能也喜欢:

  • 暂无相关推荐文章

本文由主机参考刊发,转载请注明:采集网站,如何快速去除网站里的404页面? https://zhujicankao.com/16969.html

【腾讯云】领8888元采购礼包,抢爆款云服务器 每月 9元起,个人开发者加享折上折!
打赏
转载请注明原文链接:主机参考 » 采集网站,如何快速去除网站里的404页面?
主机参考仅做资料收集,不对商家任何信息及交易做信用担保,购买前请注意风险,有交易纠纷请自行解决!请查阅:特别声明

评论 抢沙发

评论前必须登录!