python学习笔记（1）-爬取小说_print % each.text

作者：代码探险家 | 2024-07-14 14:32:59

踩

print % each.text

小说网站上某个小说的爬取

Python版本：3.9.6

ide：PyCharm 2021.1.3

基于HTML和Python基础语法知识，涉及内容如下：

1、使用requests获取网页资源；

2、使用BeautifulSoup拆解网页html内容，得到想要的内容；

3、Python的文件读写方法

以“起点中文网”为例，尝试爬取朋友的小说《我的梦境能具现》

1、爬取某一章节的内容

随便打开该小说的第一章节：

https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2

可以通过网址，使用requests库提供的方法获取到界面html格式的内容


import requests
 
url = 'https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2'
req = requests.get(url)
# 自动分析编码格式，防止乱码
req.encoding = req.apparent_encoding
print(req.text)

得到的输入为：

可以看到，我们已经得到了网页的html格式的内容（可以在浏览器上当前网页界面Ctrl+u获取html格式内容），但是这些并不是我们想要的最终结果，我们只希望获取文本内容，并不想要这些标签内容。因此，我们可以通过bs4库进行解析。

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】