赞
踩
hello,小伙伴们,大家好,今天给大家分享的开源项目是:weiboSpider,看名字也可以猜到这个项目是做什么的了!没错,这个开源项目就是采集新浪微博一个或多个用户(如:胡歌、迪丽热巴、郭碧婷)数据,并将结果信息写入文件或数据库,写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。这个开源项目需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。
具体的写入文件类型如下:
本部分为爬取到的字段信息说明,为了与免cookie版区分,下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息,会有免cookie标注,没有标注的为二者共有的信息。
用户信息
微博信息
源码安装
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
或者
$ python3 -m pip install weibo-spider
源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令
$ python3 -m weibo_spider
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。如果你已经有config.json文件了,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:
$ python3 -m weibo_spider --config_path="config.json"
本部分为可选部分,如果不需要个性化定制程序或添加新功能,可以忽略此部分。
本程序主体代码位于weibo_spider.py文件,程序主体是一个 Spider 类,上述所有功能都是通过在main函数调用 Spider 类实现的,默认的调用代码如下:
config = get_config()
wb = Spider(config)
wb.start() # 爬取微博信息
用户可以按照自己的需求调用或修改 Spider 类。通过执行本程序,我们可以得到很多信息。
要想让程序每个一段时间自动爬取,且爬取的内容为新增加的内容(不包括已经获取的微博),请查看定期自动爬取微博。
要了解获取cookie方法,请查看cookie文档。
要了解获取user_id方法,请查看user_id文档,该文档介绍了如何获取一个及多个微博用户user_id的方法。
开源地址:https://github.com/dataabc/weiboSpider
感兴趣的老铁不防去应用一下,一来可以参考一下作者的编码风格,二来对刚刚入门或者是入门不久的朋友提供一个采集数据的思路。
今天的推荐不知道大家喜不喜欢?如果大家喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力,peace!
关注公众号回复:"1024",免费领取一大波学习资源,先到先得哦!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。