抓取微信微信官方账号文章并保存为PDF文件（python方法）（Python抓取微信官方账号文章）。

主机参考：VPS测评参考推荐/专注分享VPS服务器优惠信息！若您是商家可以在本站进行投稿，查看详情！此外我们还提供软文收录、PayPal代付、广告赞助等服务，查看详情！

我们发布的部分优惠活动文章可能存在时效性，购买时建议在本站搜索商家名称可查看相关文章充分了解该商家！若非中文页面可使用Edge浏览器同步翻译！PayPal代付/收录合作

抓取微信微信官方账号文章并保存为PDF文件（python方法）（Python抓取微信官方账号文章）。

【相关学习推荐:微信微信官方账号开发教程】

前言第一次写博客，主要内容是抓取微信微信官方账号的文章，以PDF格式保存在本地。

抓取微信官方账号的文章（使用微信搜狗）1。安装Pip安装微信搜狗--升级微信搜狗是基于搜狗微信搜索的微信官方账号爬虫接口。

2.使用方法如下

import we chat sogou # captcha _ break _ time是验证码输入错误时的重试次数。默认值为1ws _ API = wechatsogou。we chatsogouapi（captcha _ break _ time = 3）#微信官方账号名称gzh _ name = & # 39'#将微信官方账号中最近10篇文章的信息以字典的形式返回到data = ws _ API . get _ gzh _ article _ by _ history（gzh _ name）数据结构中:

{ 'gzh & # 39: { '微信名& # 39；: ''，# Name & # 39微信id & # 39: ''，#微信id & # 39引言& # 39；: ''，#简介& # 39；认证& # 39；: ''，#认证& # 39；headimage & # 39: ''# avatar }、& # 39；第&#39条；: [ { 'send _ id & # 39:int，# group id，attention不唯一，因为同时发送多条消息，并且组id是一致的& # 39；日期时间& # 39；:int，#海量数据的10位时间戳time & # 39；类型& # 39；: ''，#消息类型，全部49个（手机端历史消息页面还有其他类型，网页最后10个消息页面只有49个），表示图文& # 39；主& # 39；:int，#这是群发邮件的第一条消息1还是0 & # 39；title & # 39: ''，#文章标题& # 39；摘要& # 39；: ''，#抽象& # 39；fileid & # 39:int，# & # 39；content _ url & # 39: ''，#文章链接& # 39；source _ url & # 39: ''#阅读原文链接& # 39；封面& # 39；: ''，#封面图& # 39；作者& # 39；: ''，#作者& # 39；copyright _ stat & # 39:int，#文章类型，例如:原始}，...】}这里您需要获得两条信息:文章标题和文章url。

获得文章的url后，您可以根据url将html页面转换为pdf文件。

生成PDF文件1。安装wkhtmltopdf下载地址:https://wkhtmltopdf.org/downloads.html.

2.安装pdfkitpip安装pdfkit3。使用import pdfkit#方法生成pdfpdfkit。发件人URL（& # 39；http://Baidu . com & # 39；,'out.pdf & # 39）#生成pdfpdfkit。from _ file根据html文件（& # 39；test.html & # 39,'out.pdf & # 39）#生成pdf pdf kit . from _ string（& # 39；你好！','out.pdf & # 39如果您直接使用上面获得的文章url来生成pdf，则会出现pdf文件不显示文章图片的问题。

解决方案:

#该方法根据文章的url处理html，使图片显示content _ info = ws _ API。get _ article _ content（URL）#获取html代码（代码不完整，需要添加head和body等标签）html _ code = content _ info【& # 39；content _ html & # 39】然后根据html_code构造一个完整的html代码，调用pdfkit.from_string（）的方法生成一个pdf文件。这时，你会发现文章中的图片显示在PDF文件中。

完整代码导入OS导入pdfkitimport datetime导入wechatsogou #初始化API ws _ API = we chat sogou . we chat sogou API（captcha _ break _ time = 3）defurl 2 pdf（URL，标题，目标路径）:& # 39；''使用pdfkit生成pdf文件:param url:文章url :param标题:文章标题:param目标路径:存储pdf文件的路径& # 39；''Try: content _ info = ws _ API。get _ article _ content（URL）except:return false # processed html html = f & # 39；''{ title } { title } { content _ info【& # 39；content _ html & # 39]} '''try:pdf kit . from _ string（html，target path+OS . path . sep+f & # 39；{title}。pdf & # 39）除外:#某些文章标题包含特殊字符，不能用作文件名filename = datetime。日期时间。现在（）。strfttime（& # 39；% Y % m % d % H % M % S & # 39) + '。pdf & # 39pdf kit . from _ string（html，target path+OS . path . sep+filename）if _ _ name _ _ = = = & # 39；_ _ main _ _ & # 39:#这里是微信官方账号的名称gzh_name = &#39往上爬；'target path = OS . getcwd（）+OS . path . sep+gzh _ name #如果目标文件夹不存在，则创建它如果不存在os.path.exists（目标路径）:os.makers（目标路径）#以字典数据的形式返回微信官方账号中最近10篇文章的信息= ws _ API。get _ gzh _ article _ by _ history（gzh _ name）article _ list = data【& # 39；第&#39条；】for article _ list中的文章:URL = article【& # 39；content _ url & # 39】title = article【& # 39；title & # 39】URL 2 pdf（URL，title，targetPath）以上是抓取微信的微信官方账号文章并保存为PDF文件的详细内容（Python方法）。更多资讯请关注主机参考其他相关文章！

这几篇文章你可能也喜欢：

本文由主机参考刊发，转载请注明：抓取微信微信官方账号文章并保存为PDF文件（python方法）（Python抓取微信官方账号文章）。 https://zhujicankao.com/100369.html

抓取微信微信官方账号文章并保存为PDF文件（python方法）（Python抓取微信官方账号文章）。

这几篇文章你可能也喜欢：

相关推荐

评论抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

这几篇文章你可能也喜欢：

相关推荐

评论 抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

评论抢沙发