当前位置:   article > 正文

[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据_scrapy 微博 存入monogodb

scrapy 微博 存入monogodb

上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微博用户的基本信息。这一篇博客就将介绍怎样横向和纵向地扩展爬虫,让爬虫程序循环地爬取用户信息,然后将爬取的用户信息,保存到 MongoDB

 

扩展爬取范围

1. 完善爬取用户的资料

其实上一篇博客还遗留了部分问题,我们只爬取了用户主页的信息(用户Id、微博数、关注数、粉丝数),还没有爬取用户资料中的信息,包括用户昵称、认证信息、简介、认证、性别、地区等,这一节我们就来实现这部分逻辑。

我们上一篇实现用户基本信息的爬取是在 base_info_parse() 方法中实现的,我们再定义一个 detail_info_parse() 方法来实现用户资料的爬取。我们在用户主页点击“资料”就可以跳转到用户资料页面(https://weibo.cn/1809054937/info),因此我们可以在 base_info_parse() 方法中获取用户资料的 url,当然,仔细观察不难看出所有用户的资料页面 url 都是形如 https://weibo.cn/{user_id}/info 的,因此我们也可以用解析的 user_id 直接组装出 url,这里采用自己组装 url 的方法,然后构造一个新的请求。在 base_info_parse() 方法末尾构建新的爬虫 Request,另外,由于我们得到一位用户的完整信息,是需要将用户基本信息和详细信息组装到一起的,所以我们希望将 base_info_parse() 提取的信息也传递到 detail_info_parse() 方法中去,我们可以采用 meta 这个参数,将提取的信息传递下去,代码如下:

  1. yield scrapy.Request(url='https://weibo.cn/%s/info' % user_id, callback=self.detail_info_parse,
  2. headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})

detail_info_parse() 的完整代码如下:

  1. def detail_info_parse(self, response):
  2. """
  3. 用户资料解析函数\n
  4. :param response:
  5. :return:
  6. """
  7. # 获取上一个函数的解析结果
  8. item = response.meta['item']
  9. user_id = item.get('user_id')
  10. # 利用上一个函数的解析结果构造加载器(Loader)
  11. load = ItemLoader(item=item, response=response)
  12. selector = scrapy.Selector(response)
  13. # 如果 user_id 为空,在用户资料页面,再次提取 user_id
  14. if not user_id:
  15. ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')
  16. ids = list(set(ids))
  17. user_id = ids[0]
  18. load.add_value('user_id', user_id)
  19. nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''
  20. for info in selector.xpath('//div[@class="c"][3]/text()'):
  21. # 提取个人资料
  22. nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_name
  23. identify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identify
  24. gender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else gender
  25. district = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else district
  26. birthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthday
  27. brief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro
  28. # 根据用户填写的地区信息拆分成 省份 和 城市
  29. province, city = '', ''
  30. if district:
  31. extract = district.split(' ')
  32. province = extract[0] if extract else ''
  33. city = extract[1] if extract and len(extract) > 1 else ''
  34. # 合并用户基本信息和详细资料
  35. load.add_value('province', province)
  36. load.add_value('city', city)
  37. load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')
  38. load.add_value('username', nick_name)
  39. load.add_value('identify', identify)
  40. load.add_value('gender', gender)
  41. load.add_value('district', district)
  42. load.add_value('birthday', birthday)
  43. load.add_value('brief_intro', brief_intro)
  44. yield load.load_item()

2. 纵向扩展爬取:递归爬取用户的粉丝和关注

目前我们已经基本实现爬取一位微博用户的信息,要实现爬取多用户信息虽然可以在 start_urls 里面构造多个 url 来实现爬取多位用户,但是这样做显然是不现实的,我们注意到微博用户都有自己的粉丝和关注,我们可以通过爬取指定微博用户的关注和粉丝来扩展爬取,因此我们就需要解析用户的关注和粉丝页面来提取数据了。每一个用户的关注页面 url 都是: https://weibo.cn/{user_id}/follow ,粉丝页面 url 都是:https://weibo.cn/{user_id}/fans ,因此我们就可以通过 user_id 来组装出用户的粉丝页面和关注页面:代码如下:

  1. # 用户关注页 url
  2. follows_url = 'https://weibo.cn/%s/follow' % user_id
  3. # 用户粉丝页 url
  4. fans_url = 'https://weibo.cn/%s/fans' % user_id

通过分析粉丝和关注页面,其实两者的页面结构是一样的,因此我们可以用一个方法来分别解析两个页面,代码如下:

  1. def follow_fans_parse(self, response):
  2. """
  3. 获取关注用户/粉丝用户\n
  4. :param response:
  5. :return:
  6. """
  7. user_id = response.meta.get('user_id')
  8. if not user_id:
  9. user_id = re.compile('https://weibo.cn/(\d{10})/.*').findall(response.url)
  10. user_id = user_id[0] if user_id else ''
  11. selector = scrapy.Selector(response)
  12. # 判断用户数是否超过配置的最大用户数
  13. type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'
  14. self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))
  15. # 解析页面中所有的 URL,并提取 用户 id
  16. accounts = selector.xpath('//a[starts-with(@href,"https://weibo.cn/u/")]/@href').re(
  17. u'https://weibo.cn/u/(\d{10})')
  18. # 去重
  19. accounts = list(set(accounts))
  20. # 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URL
  21. urls = []
  22. [urls.extend(('https://weibo.cn/u/%s' % acc, 'https://weibo.cn/%s/fans' % acc,
  23. 'https://weibo.cn/%s/follow' % acc)) for acc in accounts]

在上面代码中,我们只是解析了用户关注/粉丝页面的 user_id ,还并没有爬取他们的信息,现在我们来进一步完善程序,使其形成一个闭环,继续爬取用户关注和粉丝的信息以及他们的粉丝和关注的信息。可以看到,我们构造了三种 url,分别是用户主页、关注列表以及粉丝列表的 url,其中关注列表 url 和粉丝列表 url,可以递归调用 follow_fans_parse() 方法,而用户主页可以调用 base_info_parse() 方法,代码如下:

  1. # 使用生成的 URL 构造 request
  2. for url in urls:
  3. if str(url).find('follow') > 0 or str(url).find('fan') > 0:
  4. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,cookies=self.cookies, meta={'user_id': user_id})
  5. else:
  6. yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)

3. 横向扩展爬取:添加分页爬取

现在我们只是实现了爬取一页的关注/粉丝,在页面中,我们看到对于用户关注和粉丝都是有分页的,每一页只展示 10 位用户,因此我们添加分页的实现,代码如下:

  1. # 下一页
  2. nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()
  3. if nextLink:
  4. url = 'https://weibo.cn' + nextLink[0]
  5. self.logger.info('[%s] %s下一页:%s' % (user_id, type_str, url))
  6. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies, meta={'user_id': user_id})
  7. else:
  8. self.logger.info(u'[%s] %s已爬取完毕!' % (user_id, type_str))

最后别忘了在 base_info_parse() 方法中构造 follow_fans_parse() 的请求:

  1. for url in (follows_url, fans_url):
  2. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,
  3. cookies=self.cookies, meta={'user_id': user_id})

目前,sina_user.py 的完整代码如下(已隐去 cookies的值):

  1. # -*- coding: utf-8 -*-
  2. import scrapy, time, re
  3. from scrapy.loader import ItemLoader
  4. from sina_scrapy.items import SinaUserItem
  5. class SinaUserSpider(scrapy.Spider):
  6. # 爬虫的名字,唯一标识
  7. name = 'sina_user'
  8. # 允许爬取的域名范围
  9. allowed_domains = ['weibo.cn']
  10. # 爬虫的起始页面url
  11. start_urls = ['https://weibo.cn/u/1809054937']
  12. def __init__(self):
  13. self.headers = {
  14. 'Referer': 'https://weibo.cn/u/1809054937',
  15. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
  16. }
  17. self.cookies = {
  18. 'SCF': 'XXXXXXXXXXXXXXXXXXXXXXXXXX',
  19. 'SUB': 'XXXXXXXXXXXXXXXXXXXXXXXXXX',
  20. 'SUHB': 'XXXXXXXXXXXXXXXXXXXXXXXXX',
  21. '_T_WM': XXXXXXXXXXXXXXXXXXXXXXXXX
  22. }
  23. def start_requests(self):
  24. """
  25. 构造最初 request 函数\n
  26. :return:
  27. """
  28. for url in self.start_urls:
  29. yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)
  30. def base_info_parse(self, response):
  31. """
  32. 微博用户基本信息解析函数\n
  33. :param response:
  34. :return:
  35. """
  36. # 加载器(Loader)
  37. load = ItemLoader(item=SinaUserItem(), response=response)
  38. selector = scrapy.Selector(response)
  39. # 解析微博用户 id
  40. re_url = selector.xpath('///a[contains(@href,"uid")]/@href').re('uid=(\d{10})')
  41. user_id = re_url[0] if re_url else ''
  42. load.add_value('user_id', user_id)
  43. follows_url = 'https://weibo.cn/%s/follow' % user_id
  44. fans_url = 'https://weibo.cn/%s/fans' % user_id
  45. for url in (follows_url, fans_url):
  46. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,
  47. cookies=self.cookies, meta={'user_id': user_id})
  48. # 微博数
  49. webo_num_re = selector.xpath('//div[@class="tip2"]').re(u'微博\[(\d+)\]')
  50. webo_num = int(webo_num_re[0]) if webo_num_re else 0
  51. load.add_value('webo_num', webo_num)
  52. # 关注人数
  53. follow_num_re = selector.xpath('//div[@class="tip2"]').re(u'关注\[(\d+)\]')
  54. follow_num = int(follow_num_re[0]) if follow_num_re else 0
  55. load.add_value('follow_num', follow_num)
  56. # 粉丝人数
  57. fans_num_re = selector.xpath('//div[@class="tip2"]').re(u'粉丝\[(\d+)\]')
  58. fans_num = int(fans_num_re[0]) if fans_num_re else 0
  59. load.add_value('fans_num', fans_num)
  60. # 记录爬取时间
  61. load.add_value('crawl_time', time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
  62. yield scrapy.Request(url='https://weibo.cn/%s/info' % user_id, callback=self.detail_info_parse,
  63. headers=self.headers, cookies=self.cookies, meta={'item': load.load_item()})
  64. def detail_info_parse(self, response):
  65. """
  66. 用户资料解析函数\n
  67. :param response:
  68. :return:
  69. """
  70. # 获取上一个函数的解析结果
  71. item = response.meta['item']
  72. user_id = item.get('user_id')
  73. # 利用上一个函数的解析结果构造加载器(Loader)
  74. load = ItemLoader(item=item, response=response)
  75. selector = scrapy.Selector(response)
  76. # 如果 user_id 为空,在用户资料页面,再次提取 user_id
  77. if not user_id:
  78. ids = selector.xpath('//a[contains(@href,"uid")]/@href').re('uid=(\d{10})')
  79. ids = list(set(ids))
  80. user_id = ids[0]
  81. load.add_value('user_id', user_id)
  82. nick_name, gender, district, birthday, brief_intro, identify, head_img = '', '', '', '', '', '', ''
  83. for info in selector.xpath('//div[@class="c"][3]/text()'):
  84. # 提取个人资料
  85. nick_name = info.re(u'昵称:(.*)')[0] if info.re(u'昵称:(.*)') else nick_name
  86. identify = info.re(u'认证:(.*)')[0] if info.re(u'认证:(.*)') else identify
  87. gender = info.re(u'性别:(.*)')[0] if info.re(u'性别:(.*)') else gender
  88. district = info.re(u'地区:(.*)')[0] if info.re(u'地区:(.*)') else district
  89. birthday = info.re(u'生日:(.*)')[0] if info.re(u'生日:(.*)') else birthday
  90. brief_intro = info.re(u'简介:(.*)')[0] if info.re(u'简介:(.*)') else brief_intro
  91. # 根据用户填写的地区信息拆分成 省份 和 城市
  92. province, city = '', ''
  93. if district:
  94. extract = district.split(' ')
  95. province = extract[0] if extract else ''
  96. city = extract[1] if extract and len(extract) > 1 else ''
  97. # 合并用户基本信息和详细资料
  98. load.add_value('province', province)
  99. load.add_value('city', city)
  100. load.add_xpath('head_img', '//div[@class="c"]/img[@alt="头像"]/@src')
  101. load.add_value('username', nick_name)
  102. load.add_value('identify', identify)
  103. load.add_value('gender', gender)
  104. load.add_value('district', district)
  105. load.add_value('birthday', birthday)
  106. load.add_value('brief_intro', brief_intro)
  107. yield load.load_item()
  108. def follow_fans_parse(self, response):
  109. """
  110. 获取关注用户/粉丝用户\n
  111. :param response:
  112. :return:
  113. """
  114. user_id = response.meta.get('user_id')
  115. if not user_id:
  116. user_id = re.compile('https://weibo.cn/(\d{10})/.*').findall(response.url)
  117. user_id = user_id[0] if user_id else ''
  118. selector = scrapy.Selector(response)
  119. # 判断用户数是否超过配置的最大用户数
  120. type_str = '关注' if str(response.url).find('follow') > 0 else '粉丝'
  121. self.logger.info('开始构造 [%s] %s爬取请求...' % (user_id, type_str))
  122. # 解析页面中所有的 URL,并提取 用户 id
  123. accounts = selector.xpath('//a[starts-with(@href,"https://weibo.cn/u/")]/@href').re(
  124. u'https://weibo.cn/u/(\d{10})')
  125. # 去重
  126. accounts = list(set(accounts))
  127. # 使用用户 id 构造个人资料、用户主页、关注列表以及粉丝列表的 URL
  128. urls = []
  129. [urls.extend(('https://weibo.cn/u/%s' % acc, 'https://weibo.cn/%s/fans' % acc,
  130. 'https://weibo.cn/%s/follow' % acc)) for acc in accounts]
  131. # 使用生成的 URL 构造 request
  132. for url in urls:
  133. if str(url).find('follow') > 0 or str(url).find('fan') > 0:
  134. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers,
  135. cookies=self.cookies, meta={'user_id': user_id})
  136. else:
  137. yield scrapy.Request(url=url, callback=self.base_info_parse, headers=self.headers, cookies=self.cookies)
  138. # 下一页
  139. nextLink = selector.xpath('//div[@class="pa"]/form/div/a/@href').extract()
  140. if nextLink:
  141. url = 'https://weibo.cn' + nextLink[0]
  142. self.logger.info('[%s] %s下一页:%s' % (user_id, type_str, url))
  143. yield scrapy.Request(url=url, callback=self.follow_fans_parse, headers=self.headers, cookies=self.cookies,
  144. meta={'user_id': user_id})
  145. else:
  146. self.logger.info(u'[%s] %s已爬取完毕!' % (user_id, type_str))

现在,我们的程序已经基本实现了爬取微博用户信息的功能(目前没有限制爬取速度,因此在爬取部分用户后,微博服务器会响应 418,这是微博反爬的一种策略,目前只能通过降低爬取的频率来避免出现 418,这个问题会在后面的博客介绍)

 

实现数据的持久化

还记得在 第一篇博客 [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) —— 新建爬虫项目 中分析 Scrapy 的整体架构时介绍到,Spider 爬取的数据,会交给 Item Pipeline 处理。在上面的代码中,detail_info_parse() 方法的最后一行代码:

yield load.load_item()

通过这行代码,Spider 就生成了一个 Item,并将这个 Item 返回给了 Item Pipeline 处理。我们在 Item Pipeline 里面可以将我们爬取的数据存入到 MongoDB 中去。

首先我们在 settings.py 里面定义我们 MongoDB 的连接信息,代码如下:

  1. # MONGODB 主机名
  2. MONGODB_HOST = "127.0.0.1"
  3. # MONGODB 端口号
  4. MONGODB_PORT = 27017
  5. # 数据库名称
  6. MONGODB_DBNAME = "crawl"
  7. # 存放数据的集合名称
  8. MONGODB_COLLECTION = "sina_userinfo"

然后在 Item Pipeline 中得到这些配置,用来初始化 MongoDB 连接,代码如下:

  1. from scrapy.conf import settings
  2. from pymongo import MongoClient
  3. host = settings.get('MONGODB_HOST')
  4. port = settings.get('MONGODB_PORT')
  5. dbname = settings.get('MONGODB_DBNAME')
  6. collection_name = settings.get('MONGODB_COLLECTION')
  7. db = MongoClient(host=host, port=port).get_database(dbname).get_collection(collection_name)

接下来我们要做的很简单,只需要把得到的 Item 保存到 MongoDB 就可以了,我们定义一个 SaveUserInfoPipeline 类,然后定义一个 process_item() 方法,然后将 item 转化成字典类型,保存入库就行了。代码如下:

  1. class SaveUserInfoPipeline(object):
  2. """
  3. 保存爬取的数据\n
  4. """
  5. def __init__(self):
  6. print('要保存的 Collenction:%s' % collection_name)
  7. def process_item(self, item, spider):
  8. data = dict(item)
  9. print("最终入库数据:%s" % item)
  10. # 记录不存在则插入,否则更新数据
  11. db.update_one({'weibo_id': data.get('weibo_id')}, {"$set": data}, True)
  12. return item

最后一步,在 settings 启用我们定义的 Item Pipeline,代码如下:

  1. ITEM_PIPELINES = {
  2. 'sina_scrapy.pipelines.SaveUserInfoPipeline': 20,
  3. }

后面的数字 20 是代表优先级(取值范围是 1 ~ 999),目前只有一个 Item Pipeline,所以任意指定一个就行。

使用 scrapy crawl sina_user 指令启动爬虫,现在我们已经实现了将爬取的用户信息保存到 MongoDB,但是查看 MongoDB 的数据可以发现,保存的每一项都是一个列表形式,这并不是我们想要的。针对这个问题,我们可以修改 Items 里面关于数据模型的定义,对于每一项数据都只取第一个元素,代码如下:

  1. import scrapy
  2. from scrapy.loader.processors import TakeFirst
  3. class SinaUserItem(scrapy.Item):
  4. # 微博用户唯一标识
  5. user_id = scrapy.Field(output_processor=TakeFirst())
  6. # 用户昵称
  7. username = scrapy.Field(output_processor=TakeFirst())
  8. # 微博数量
  9. webo_num = scrapy.Field(output_processor=TakeFirst())
  10. # 关注人数
  11. follow_num = scrapy.Field(output_processor=TakeFirst())
  12. # 粉丝人数
  13. fans_num = scrapy.Field(output_processor=TakeFirst())
  14. # 性别
  15. gender = scrapy.Field(output_processor=TakeFirst())
  16. # 地区
  17. district = scrapy.Field(output_processor=TakeFirst())
  18. # 省份
  19. province = scrapy.Field(output_processor=TakeFirst())
  20. # 地市
  21. city = scrapy.Field(output_processor=TakeFirst())
  22. # 生日
  23. birthday = scrapy.Field(output_processor=TakeFirst())
  24. # 简介
  25. brief_intro = scrapy.Field(output_processor=TakeFirst())
  26. # 认证
  27. identify = scrapy.Field(output_processor=TakeFirst())
  28. # 头像 URL
  29. head_img = scrapy.Field(output_processor=TakeFirst())
  30. # 爬取时间
  31. crawl_time = scrapy.Field(output_processor=TakeFirst())

这样我们就实现了我们预期的效果了。

 

总结

这一篇博客,我们实现了从横向和纵向扩展爬取用户信息并将用户信息保存到 MongoDB。在下一节中,我们将对爬虫的一些反爬技术进行介绍,例如添加 IP代理池、Cookies池以及随机选取 User-Agent 等。让我们的爬虫应用反爬机制更加健全。

 

下一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/57086
推荐阅读
相关标签
  

闽ICP备14008679号