当前位置:   article > 正文

用PYTHON将微信公众号的文章导出_python 微信公众号文章链接导出word

python 微信公众号文章链接导出word

需要将微信公众号的文章导出来存档,从网上找了个微信文章搜索下载助手,倒是很方便的把所有历史消息列表导出了,但在将列表所有文章存为PDF文件时,作者要求付费,只好将列表文件导出来,然后写了段代码自己保存PDF

其中用到部分工具:

1、pdfkit工具,这个可以通过PIP安装,但之前要安装wkhtmltox,下载解压至D盘。

2、selenium,PIP安装即可。附加工作是下载与本机的chrome版本适应的chromedriver,复制到chrome目录,并把chrome目录添加到系统变量path中

3、urllib,pip安装,用以保存图片,之所以用urllib保存图片而不是通过pdfkit保存,因为pdfkit工具保存微信文章中的图片出现异常.

注意:微信图片在较老的文章中,用的URL是http而不是HTTPS,此处不再处理

  1. import pdfkit
  2. import re #python中利用正则,需要导入re模块
  3. import io
  4. import time
  5. import random
  6. from selenium import webdriver
  7. from urllib.request import urlretrieve
  8. path_wk = r'D:\wkhtmltox\bin\wkhtmltopdf.exe' #wkhtmltox安装位置
  9. config = pdfkit.configuration(wkhtmltopdf = path_wk)
  10. f=open(r"d:\hl\list.txt","r",encoding='utf-8') #打开url列表
  11. '''
  12. 形如:
  13. 文章标题||http://....
  14. 文章标题||http://....
  15. '''
  16. listurl=f.readlines()
  17. driver = webdriver.Chrome()
  18. driver.maximize_window()
  19. i=0
  20. for urlline in listurl:
  21. tt,url=urlline.split("||") #分析出标题与url
  22. try:
  23. pdfkit.from_url(url, r'd:\hl\pdfs\{}.{}.pdf'.format(i,tt), configuration=config) #保存网页的PDF
  24. driver.get(url)
  25. doc = driver.page_source #获得页面源代码
  26. pic_url = re.findall('src="https://mmbiz.qpic.cn/mmbiz_jpg/(.*?)"',doc,re.S) #取得所有微信文章配图的IMG的URL
  27. for key in pic_url:
  28. imgurl="https://mmbiz.qpic.cn/mmbiz_jpg/"+key
  29. urlretrieve(imgurl, r"D:\hl\pdfs\IMAGES\{}.{}-{}.jpg".format(i,tt,random.randint(10000,99999))) #保存文件
  30. i+=1
  31. except:
  32. print(tt)
  33. time.sleep(3)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/216589
推荐阅读
相关标签
  

闽ICP备14008679号