赞
踩
昨天本来写了一篇关于python爬取的文章,结果没通过,正好今天一起吧。用python同时实现爬取,和存入数据库,算是复习一下前面操作数据库的知识。
1、准备工作
既然是爬取,那自然要连接到爬取的页面,所以需要requests库。而爬取完成之后,还需要解析网页,因而也要导入BeautifulSoup库。
因为后面要将数据存入数据库,所以这里也一并引入了pymysql库,而这个time库呢,主要就是用来间隔时间,不然太快爬取需要爬取的页面,可能会崩溃,后面代码会提到。
注:在用到推导式的时候,我拼接了一个字符串,这是因为爬取的页面地址是相对路径,后面会报错,所以拼接了一串连接头,变成绝对路径了。
2、继续下一步
这段代码,主要就是根据标签来获取需要的信息。
3、数据库的基本操作
这里算是对前面写过的数据库的复习,因为插入的字段可能有点多,所以采用了三引号。
4、开始爬取
这里只截取了一部分爬取的信息,前边提到的time库用到了,在这段代码主要就是间隔2秒获取一下信息。
5、命令行和navicat的数据显示
当然因为提前中断了爬取的代码命令,所以插入数据库的只有这么多数据。
以上代码都可以直接输入执行,没有任何错误,大家可以实际操作一遍,这样对python的爬取和数据库的操作会更熟练一点。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。