python爬取新闻存入数据库_python爬取数据存入数据库

作者：黑客灵魂 | 2024-07-30 04:44:17

踩

python爬取新闻保存在数据库

昨天本来写了一篇关于python爬取的文章，结果没通过，正好今天一起吧。用python同时实现爬取，和存入数据库，算是复习一下前面操作数据库的知识。

f3d3572c11dfa9ecfe49b6e86b462006908fc102.jpeg?token=7e39a6743279bb96a97e80c8c3f13bf4&s=F39A3CC6E0B1298AA0193F5D030050F4

1、准备工作

既然是爬取，那自然要连接到爬取的页面，所以需要requests库。而爬取完成之后，还需要解析网页，因而也要导入BeautifulSoup库。

37d12f2eb9389b508f9736338fa332d8e6116e87.jpeg?token=078f5753a66b7103b040fa43c805755f&s=1D8A7C321B6249224E5D21DA0000C0B2

因为后面要将数据存入数据库，所以这里也一并引入了pymysql库，而这个time库呢，主要就是用来间隔时间，不然太快爬取需要爬取的页面，可能会崩溃，后面代码会提到。

注：在用到推导式的时候，我拼接了一个字符串，这是因为爬取的页面地址是相对路径，后面会报错，所以拼接了一串连接头，变成绝对路径了。

2、继续下一步

35a85edf8db1cb137e428e6cd7c2814b93584bc5.jpeg?token=bda1b892550cc20a48c99d2f00d9055e&s=1D8E7D330B62652000F884DA0000C0B3

这段代码，主要就是根据标签来获取需要的信息。

3、数据库的基本操作

d62a6059252dd42a2ec75f7f09ad8cb0cbeab8b7.jpeg?token=55b317889d5708bc9472955136a34145&s=14A6783213A34522146DA8DA0000C0B3

这里算是对前面写过的数据库的复习，因为插入的字段可能有点多，所以采用了三引号。

4、开始爬取

8694a4c27d1ed21b198dc09ea7f80ac150da3fa4.jpeg?token=730ac1607b7e520325b3dbe88fed520b&s=5EAE3C621D9BC1C85CF504DE0000C0B2

这里只截取了一部分爬取的信息，前边提到的time库用到了，在这段代码主要就是间隔2秒获取一下信息。

5、命令行和navicat的数据显示

9a504fc2d5628535ce369dc69b79a1c3a5ef639a.jpeg?token=cc4dc1ebbc1bfba6bdd760c57aef37ed&s=C90AEC1AFEF415BF9D19D087000030C2

当然因为提前中断了爬取的代码命令，所以插入数据库的只有这么多数据。

以上代码都可以直接输入执行，没有任何错误，大家可以实际操作一遍，这样对python的爬取和数据库的操作会更熟练一点。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/902008