主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情! |
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作 |
……
www.xxx.com/400000.html
火车头想采集一个站点,有40万个页面,但里面起码有一半的页面是404页面,直接火车头采集会浪费大量的时间。
请教各位大佬,有什么办法能快速的判断并筛选出正常的页面(非404的页面)?
各路大神的回复:
注册: 当我没说
FDD: 你会自己写程序就很简单,不会就很难了
lna: 就是不会写,所以问下LOC大佬有什么工具推荐没有!
一个不知名网友: 不懂,帮顶。 我很想知道 1、你采集的站被百度收录了吗?如果收录了你,你采了还会收录你的吗?加入伪原创吗?怎么加的? 2、你的采集目标站如果没被百度收录 ,那么你是怎么找到的??
FDD: 看看 404 页面有什么特征….
skyboy0671: 在采集的时候跳过空白内容就行
FDD: 有特征,就是看有什么工具推荐没?
wgetrc: 采集至少得留间隔时间,例如间隔时间5s,那20万个404页面也就占了不少时间。 所以问下LOC的大佬,是否有什么工具能先判断筛选出来。
这几篇文章你可能也喜欢:
- 暂无相关推荐文章
本文由主机参考刊发,转载请注明:采集网站,如何快速去除网站里的404页面? https://zhujicankao.com/16969.html
评论前必须登录!
注册