当前位置:   article > 正文

python爬取新闻存入数据库_python爬取数据存入数据库

python爬取新闻保存在数据库

昨天本来写了一篇关于python爬取的文章,结果没通过,正好今天一起吧。用python同时实现爬取,和存入数据库,算是复习一下前面操作数据库的知识。

f3d3572c11dfa9ecfe49b6e86b462006908fc102.jpeg?token=7e39a6743279bb96a97e80c8c3f13bf4&s=F39A3CC6E0B1298AA0193F5D030050F4

1、准备工作

既然是爬取,那自然要连接到爬取的页面,所以需要requests库。而爬取完成之后,还需要解析网页,因而也要导入BeautifulSoup库。

37d12f2eb9389b508f9736338fa332d8e6116e87.jpeg?token=078f5753a66b7103b040fa43c805755f&s=1D8A7C321B6249224E5D21DA0000C0B2

因为后面要将数据存入数据库,所以这里也一并引入了pymysql库,而这个time库呢,主要就是用来间隔时间,不然太快爬取需要爬取的页面,可能会崩溃,后面代码会提到。

注:在用到推导式的时候,我拼接了一个字符串,这是因为爬取的页面地址是相对路径,后面会报错,所以拼接了一串连接头,变成绝对路径了。

2、继续下一步

35a85edf8db1cb137e428e6cd7c2814b93584bc5.jpeg?token=bda1b892550cc20a48c99d2f00d9055e&s=1D8E7D330B62652000F884DA0000C0B3

这段代码,主要就是根据标签来获取需要的信息。

3、数据库的基本操作

d62a6059252dd42a2ec75f7f09ad8cb0cbeab8b7.jpeg?token=55b317889d5708bc9472955136a34145&s=14A6783213A34522146DA8DA0000C0B3

这里算是对前面写过的数据库的复习,因为插入的字段可能有点多,所以采用了三引号。

4、开始爬取

8694a4c27d1ed21b198dc09ea7f80ac150da3fa4.jpeg?token=730ac1607b7e520325b3dbe88fed520b&s=5EAE3C621D9BC1C85CF504DE0000C0B2

这里只截取了一部分爬取的信息,前边提到的time库用到了,在这段代码主要就是间隔2秒获取一下信息。

5、命令行和navicat的数据显示

9a504fc2d5628535ce369dc69b79a1c3a5ef639a.jpeg?token=cc4dc1ebbc1bfba6bdd760c57aef37ed&s=C90AEC1AFEF415BF9D19D087000030C2

当然因为提前中断了爬取的代码命令,所以插入数据库的只有这么多数据。

以上代码都可以直接输入执行,没有任何错误,大家可以实际操作一遍,这样对python的爬取和数据库的操作会更熟练一点。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/902008
推荐阅读
相关标签
  

闽ICP备14008679号