当前位置:   article > 正文

微博json文件_爬虫:新浪微博爬虫的最简单办法

微博怎么得到json文件

c1226622410916c86a486da419f58daa.png

前言:本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据,主要是采集指定微博用户发布的微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。

既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了

9f8b7ed1eecbf0e094f3d2eeb90c73d0.png

还有就是m站,也就是移动端网页

3dcd0b37246201d4f46a86cd0ef43c21.png

以及一个无法旧版本的访问入口了,首先可以排除web站了,这个是最麻烦的,它的请求是被js加密过,处理起来很麻烦

那我们为何不退而求其次呢,我们观察下这个m站的请求

ffde7af664b50780966a4f1abccec23a.png

可以发现在某个请求里可以发现我们需要的微博信息,既然这样就好办了,我们就可以着手我们的代码了

首先是获取用户信息,通过用户信息获取用户的微博总数,这样就可以知道总共多少页的数据了,代码如下所示

  1. def get_json(self, params):
  2. """获取网页中json数据"""
  3. url = 'https://m.weibo.cn/api/container/getIndex?'
  4. r = requests.get(url, params=params, cookies=self.cookie)
  5. return r.json()
  6. def get_page_count(self):
  7. """获取微博页数"""
  8. try:
  9. weibo_count = self.user['statuses_count']
  10. page_count = int(math.ceil(weibo_count / 10.0))
  11. return page_count
  12. except KeyError:
  13. sys.exit(u'程序出错')
  14. def get_user_info(self):
  15. """获取用户信息"""
  16. params = {'containerid': '100505' + str(weibo_config['user_id'])}
  17. js = self.get_json(params)
  18. if js['ok']:
  19. info = js['data']['userInfo']
  20. user_info = {}
  21. user_info['id'] = weibo_config['user_id']
  22. user_info['screen_name'] = info.get('screen_name', '')
  23. user_info['gender'] = info.get('gender', '')
  24. user_info['statuses_count'] = info.get('statuses_count', 0)
  25. user_info['followers_count'] = info.get('followers_count', 0)
  26. user_info['follow_count'] = info.get('follow_count', 0)
  27. user_info['description'] = info.get('description', '')
  28. user_info['profile_url'] = info.get('profile_url', '')
  29. user_info['profile_image_url'] = info.get('profile_image_url', '')
  30. user_info['avatar_hd'] = info.get('avatar_hd', '')
  31. user_info['urank'] = info.get('urank', 0)
  32. user_in
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/57143
推荐阅读
相关标签
  

闽ICP备14008679号