当前位置:   article > 正文

python学习笔记(1)-爬取小说_print % each.text

print % each.text

小说网站上某个小说的爬取


Python版本:3.9.6

ide:PyCharm 2021.1.3


基于HTML和Python基础语法知识,涉及内容如下:

1、使用requests获取网页资源;

2、使用BeautifulSoup拆解网页html内容,得到想要的内容;

3、Python的文件读写方法


以“起点中文网”为例,尝试爬取朋友的小说《我的梦境能具现》


1、爬取某一章节的内容

        随便打开该小说的第一章节:

https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2

        可以通过网址,使用requests库提供的方法获取到界面html格式的内容

  1. import requests
  2. url = 'https://read.qidian.com/chapter/Li-xsjzuoI4smgY_yC2imA2/LJg0D5NFpKfgn4SMoDUcDQ2'
  3. req = requests.get(url)
  4. # 自动分析编码格式,防止乱码
  5. req.encoding = req.apparent_encoding
  6. print(req.text)

         得到的输入为:

        可以看到,我们已经得到了网页的html格式的内容(可以在浏览器上当前网页界面Ctrl+u获取html格式内容),但是这些并不是我们想要的最终结果,我们只希望获取文本内容,并不想要这些标签内容。因此,我们可以通过bs4库进行解析。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号