赞
踩
小说网站上某个小说的爬取
Python版本:3.9.6
ide:PyCharm 2021.1.3
基于HTML和Python基础语法知识,涉及内容如下:
1、使用requests获取网页资源;
2、使用BeautifulSoup拆解网页html内容,得到想要的内容;
3、Python的文件读写方法
以“起点中文网”为例,尝试爬取朋友的小说《我的梦境能具现》
1、爬取某一章节的内容
随便打开该小说的第一章节:
https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2
可以通过网址,使用requests库提供的方法获取到界面html格式的内容
- import requests
-
- url = 'https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2'
- req = requests.get(url)
- # 自动分析编码格式,防止乱码
- req.encoding = req.apparent_encoding
- print(req.text)
得到的输入为:
可以看到,我们已经得到了网页的html格式的内容(可以在浏览器上当前网页界面Ctrl+u获取html格式内容),但是这些并不是我们想要的最终结果,我们只希望获取文本内容,并不想要这些标签内容。因此,我们可以通过bs4库进行解析。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。