VPS参考测评推荐
专注分享VPS主机优惠信息
衡天云优惠活动
华纳云优惠活动
荫云优惠活动

抓取微信微信官方账号文章并保存为PDF文件(python方法)(Python抓取微信官方账号文章)。

主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情!
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作

抓取微信微信官方账号文章并保存为PDF文件(python方法)(Python抓取微信官方账号文章)。

【相关学习推荐:微信微信官方账号开发教程】

前言第一次写博客,主要内容是抓取微信微信官方账号的文章,以PDF格式保存在本地。

抓取微信官方账号的文章(使用微信搜狗)1。安装Pip安装微信搜狗--升级微信搜狗是基于搜狗微信搜索的微信官方账号爬虫接口。

2.使用方法如下

import we chat sogou # captcha _ break _ time是验证码输入错误时的重试次数。默认值为1ws _ API = wechatsogou。we chatsogouapi(captcha _ break _ time = 3)#微信官方账号名称gzh _ name = & # 39'#将微信官方账号中最近10篇文章的信息以字典的形式返回到data = ws _ API . get _ gzh _ article _ by _ history(gzh _ name)数据结构中:

{ 'gzh & # 39: { '微信名& # 39;: '',# Name & # 39微信id & # 39: '',#微信id & # 39引言& # 39;: '',#简介& # 39;认证& # 39;: '',#认证& # 39;headimage & # 39: ''# avatar }、& # 39;第&#39条;: [ { 'send _ id & # 39:int,# group id,attention不唯一,因为同时发送多条消息,并且组id是一致的& # 39;日期时间& # 39;:int,#海量数据的10位时间戳time & # 39;类型& # 39;: '',#消息类型,全部49个(手机端历史消息页面还有其他类型,网页最后10个消息页面只有49个),表示图文& # 39;主& # 39;:int,#这是群发邮件的第一条消息1还是0 & # 39;title & # 39: '',#文章标题& # 39;摘要& # 39;: '',#抽象& # 39;fileid & # 39:int,# & # 39;content _ url & # 39: '',#文章链接& # 39;source _ url & # 39: ''#阅读原文链接& # 39;封面& # 39;: '',#封面图& # 39;作者& # 39;: '',#作者& # 39;copyright _ stat & # 39:int,#文章类型,例如:原始},...】}这里您需要获得两条信息:文章标题和文章url。

获得文章的url后,您可以根据url将html页面转换为pdf文件。

生成PDF文件1。安装wkhtmltopdf下载地址:https://wkhtmltopdf.org/downloads.html.

2.安装pdfkitpip安装pdfkit3。使用import pdfkit#方法生成pdfpdfkit。发件人URL(& # 39;http://Baidu . com & # 39;,'out.pdf & # 39)#生成pdfpdfkit。from _ file根据html文件(& # 39;test.html & # 39,'out.pdf & # 39)#生成pdf pdf kit . from _ string(& # 39;你好!','out.pdf & # 39如果您直接使用上面获得的文章url来生成pdf,则会出现pdf文件不显示文章图片的问题。

解决方案:

#该方法根据文章的url处理html,使图片显示content _ info = ws _ API。get _ article _ content(URL)#获取html代码(代码不完整,需要添加head和body等标签)html _ code = content _ info【& # 39;content _ html & # 39】然后根据html_code构造一个完整的html代码,调用pdfkit.from_string()的方法生成一个pdf文件。这时,你会发现文章中的图片显示在PDF文件中。

完整代码导入OS导入pdfkitimport datetime导入wechatsogou #初始化API ws _ API = we chat sogou . we chat sogou API(captcha _ break _ time = 3)defurl 2 pdf(URL,标题,目标路径):& # 39;''使用pdfkit生成pdf文件:param url:文章url :param标题:文章标题:param目标路径:存储pdf文件的路径& # 39;''Try: content _ info = ws _ API。get _ article _ content(URL)except:return false # processed html html = f & # 39;''{ title } { title } { content _ info【& # 39;content _ html & # 39]} '''try:pdf kit . from _ string(html,target path+OS . path . sep+f & # 39;{title}。pdf & # 39)除外:#某些文章标题包含特殊字符,不能用作文件名filename = datetime。日期时间。现在()。strfttime(& # 39;% Y % m % d % H % M % S & # 39) + '。pdf & # 39pdf kit . from _ string(html,target path+OS . path . sep+filename)if _ _ name _ _ = = = & # 39;_ _ main _ _ & # 39:#这里是微信官方账号的名称gzh_name = &#39往上爬;'target path = OS . getcwd()+OS . path . sep+gzh _ name #如果目标文件夹不存在,则创建它如果不存在os.path.exists(目标路径):os.makers(目标路径)#以字典数据的形式返回微信官方账号中最近10篇文章的信息= ws _ API。get _ gzh _ article _ by _ history(gzh _ name)article _ list = data【& # 39;第&#39条;】for article _ list中的文章:URL = article【& # 39;content _ url & # 39】title = article【& # 39;title & # 39】URL 2 pdf(URL,title,targetPath)以上是抓取微信的微信官方账号文章并保存为PDF文件的详细内容(Python方法)。更多资讯请关注主机参考其他相关文章!

这几篇文章你可能也喜欢:

本文由主机参考刊发,转载请注明:抓取微信微信官方账号文章并保存为PDF文件(python方法)(Python抓取微信官方账号文章)。 https://zhujicankao.com/100369.html

【腾讯云】领8888元采购礼包,抢爆款云服务器 每月 9元起,个人开发者加享折上折!
打赏
转载请注明原文链接:主机参考 » 抓取微信微信官方账号文章并保存为PDF文件(python方法)(Python抓取微信官方账号文章)。
主机参考仅做资料收集,不对商家任何信息及交易做信用担保,购买前请注意风险,有交易纠纷请自行解决!请查阅:特别声明

评论 抢沙发

评论前必须登录!