Python 爬虫书籍爬取实例_python爬取书籍信息

作者：人工智能uu | 2024-08-28 08:47:28

踩

python爬取书籍信息

网页文字爬取，以爬取整本书籍为例。

一、步骤

①首先，获取目录页的h1（小说名）作为文件夹名并创建文件夹。


#设置存储文件夹
FName = text1.findAll('h1')[1].text
if not os.path.exists(FName):
    os.mkdir(FName)

②通过要获取小说的目录页，爬取每个章节的链接


#目录下各章节链接获取
t = '<a style="" href="(.*?)">'
AllUrl= re.findall(t, response.text)

③获取每个章节下的文字。章节名作为存储的txt名，并把对应文字存入。

注意：txt存储存在文件名存在格式问题。故：


 #判断存储文件名类型，去除不符合条件文件名
    for NoName in ["?","/","~","*","<",">",":","|"]:
        if(fileName[-1]==NoName):
            fileName=fileName[0:len(fileName)-1]

二、完整代码

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/1021651

Python 爬虫 书籍爬取实例_python爬取书籍信息