当前位置:   article > 正文

Python 爬虫 书籍爬取实例_python爬取书籍信息

python爬取书籍信息

网页文字爬取,以爬取整本书籍为例。

一、步骤

①首先,获取目录页的h1(小说名)作为文件夹名并创建文件夹。​

  1. #设置存储文件夹
  2. FName = text1.findAll('h1')[1].text
  3. if not os.path.exists(FName):
  4. os.mkdir(FName)

②通过要获取小说的目录页,爬取每个章节的链接

  1. #目录下各章节链接获取
  2. t = '<a style="" href="(.*?)">'
  3. AllUrl= re.findall(t, response.text)

③获取每个章节下的文字。章节名作为存储的txt名,并把对应文字存入。

 注意:txt存储存在文件名存在格式问题。故:

  1. #判断存储文件名类型,去除不符合条件文件名
  2. for NoName in ["?","/","~","*","<",">",":","|"]:
  3. if(fileName[-1]==NoName):
  4. fileName=fileName[0:len(fileName)-1]

二、完整代码

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/1021651
推荐阅读
相关标签
  

闽ICP备14008679号