当前位置:   article > 正文

基于小浣熊漫画cms的python爬虫项目实战(一)

小浣熊漫画cms

 创建 Scrapy 爬虫框架项目

一、 Scrapy 爬虫框架项目的创建

  • 1.打开【cmd】

  • 2.进入你要使用的 Anaconda 环境

    • 1.环境名可以在【Pycharm】的【Settings】下【Project:】下找到

    • 2.使用命令:activate 环境名,例如:activate learn

    • 3.进入想要存放 scrapy 项目的目录下 

    • 4.新建项目:scrapy startproject xxx项目名,例如:scrapy startproject dem

    • 5.在文件资源管理器打开该目录,就会发现生成了好几个文件这里写图片描述

    • 6.使用 Pycharm 打开项目所在目录就可以了。这里我们就把项目创建好了,分析一下自动生成的文件的作用

1.2 Scrapy 爬虫框架项目的开发

  • 1.使用 Pycharm 打开项目,截图:
  • 2.项目的开发的大致流程:
    • 1.明确需要爬取的目标/产品:编写 item.py
    • 2.在 spider 目录下载创建 python 文件制作爬虫:
      • 地址 spider/xxspider.py 负责分解,提取下载的数据
    • 3.存储内容:pipelines.py
  • Pipeline.py 文件
    • 对应 pipelines 文件
    • 爬虫提取出数据存入 item 后,item 中保存的数据需要进一步处理,比如清洗,去虫,存储等
    • Pipeline 需要处理 process_item 函数
    • process_item
      • spider 提取出来的 item 作为参数传入,同时传入的还有 spider
      • 此方法必须实现
      • 必须返回一个 Item 对象,被丢弃的 item 不会被之后的 pipeline
  • _ init _:构造函数
    • 进行一些必要的参数初始化
  • open_spider(spider):
    • spider 对象对开启的时候调用
  • close_spider(spider):
    • 当 spider 对象被关闭的时候调用
  • Spider 目录
    • 对应的是文件夹 spider 下的文件
    • _ init _:初始化爬虫名称,start _urls 列表
    • start_requests:生成 Requests 对象交给 Scrapy 下载并返回 response
    • parse:根据返回的 response 解析出相应的 item,item 自动进入 pipeline:如果需要,解析 url,url自动交给 requests 模块,一直循环下去
    • start_requests:此方法尽能被调用一次,读取 start _urls 内容并启动循环过程
    • name:设置爬虫名称
    • start_urls:设置开始第一批爬取的 url
    • allow_domains:spider 允许去爬的域名列表
    • start_request(self):只被调用一次
    • parse:检测编码
    • log:日志记录

二 、爬取前的分析 

2.1 在正式爬取资源前,我们可以利用scrapy shell来分析我们想爬取的漫画网页主页,整理下思路。在cmd中运行如下指令:

scrapy shell http://www.sixmh7.com/23370/

 

我们可以看到,输入命令后,就会有一些日志一样的东西显示出来,蓝色区域则显示出可以使用的scrapy命令,接下来我们需要用到“response”来进行爬取前的分析,你可以接着输入response.body这条命令,看看会输出什么

2.2.查看章节链接和章节名:我们利用浏览器打开开发者工具,查看一下漫画主页的链接,如图:

我们可以发现,章节链接都在<li>里面,这里我们利用scrapy shell来提取一下:

2.2.1.提取章节名

response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/p/text()').extract()

2.2.2.提取章节链接

response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/@href').extract()

 这里我们发现,这里并不是全部章节的内容,需要点击查看更多章节动态获取,接下来我们分析动态获取的接口(有一些漫画站不需要动态获取,只是把静态的内容隐藏了)

 

 接下来获取全部的链接和章节名,就不截图了,下面直接上代码

  1. # 章节链接地址
  2. urls = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/@href').extract()
  3. # 获取所有的章节名
  4. dir_names = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/p/text()').extract()
  5. data = {
  6. "id": 23370,
  7. "id2": 1
  8. }
  9. response = requests.post("http://www.sixmh7.com/bookchapter/", data=data)
  10. for index in range(len(response.json())):
  11. link_url = "/23370/" + response.json()[index]['chapterid'] + ".html"
  12. urls.append(link_url)
  13. dir_name = response.json()[index]['chaptername']
  14. dir_names.append(dir_name)

 2.3.分析图片链接来源

         首先我们要理清楚一个思路:章节链接(link_urls)和图片链接(img_urls)是两种链接,你点进第一章后,利用开发者工具就能发现这一点。相当于说:每页漫画都有两个链接:页面链接和图片来源链接,2.2步中我们利用response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/@href').extract()获取到的是页面链接,而我们要做的就是首先跳转到这个页面,然后找到图片链接,最后将保存的图片链接下载。

2.3.1 接下来我们分析章节里的图片链接,如下图

2.3.2 获取本页的图片链接
这里,我们很容易就和上面一样想到,利response.xpath('//li[@id="page_01"]/img/@src').extract()
来获取图片链接,但是当你真正这么做了,就会发现输出为空。原因就在于这一段html是利用简单的js动态加载进去的,你可以利用response.body来查看html不经过css和js修饰的源码。就会发现并没有打印出图片的信息,只有一堆js

由于这里的动态加载方法较为简单,如下图,可以直接利用开发者工具查看到js代码,因此我们直接获取js,然后进行分析即可(后续复杂的动态请求晚点学)

但是在这里我们发现,这段js代码被加密了,所以我们需要对这段eval代码进行解密

从scrapy shell进去章节页面,输入如下命令获取js

response.xpath('//script/text()').extract()[2].strip()

  1. eval_js = response.xpath('//script/text()').extract()[2].strip()
  2. js = """
  3. function decode(code) {
  4. if(code.indexOf("eval(function")>-1){
  5. code = code.replace(/^eval/, '');
  6. code = eval(code);
  7. return code;
  8. }
  9. }
  10. """
  11. com = execjs.compile(js)
  12. images = com.call('decode', eval_js)[13:].replace(']', '').split(",")

 2.4这里我把前面需要的内容整理下,方便直接看:

  1. # 章节链接地址
  2. urls = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/@href').extract()
  3. # 获取所有的章节名
  4. dir_names = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/p/text()').extract()
  5. data = {
  6. "id": 23370,
  7. "id2": 1
  8. }
  9. response = requests.post("http://www.sixmh7.com/bookchapter/", data=data)
  10. for index in range(len(response.json())):
  11. link_url = "/23370/" + response.json()[index]['chapterid'] + ".html"
  12. urls.append(link_url)
  13. dir_name = response.json()[index]['chaptername']
  14. dir_names.append(dir_name))
  15. #进入第一章分析
  16. scrapy shell http://www.sixmh7.com/23370/1297116.html
  17. #获取IMG SRC(注意输出的是js,还需要后续处理)
  18. response.xpath('//script/text()').extract()[2].strip()

 三、正式编写

1)items.py

  1. class Sixmh7Item(scrapy.Item):
  2. # define the fields for your item here like:
  3. # name = scrapy.Field()
  4. # 漫画名
  5. book_name = scrapy.Field()
  6. # 漫画别名
  7. nick_name = scrapy.Field()
  8. # 分类
  9. tags = scrapy.Field()
  10. # 作者名字
  11. author = scrapy.Field()
  12. # 状态,1代表完结,0代表连载中
  13. end = scrapy.Field()
  14. # 封面图远程地址
  15. cover_url = scrapy.Field()
  16. # 章节名
  17. chapter_name = scrapy.Field()
  18. # 地区id
  19. area_id = scrapy.Field()
  20. # 由图片标签组成的字符串
  21. images = scrapy.Field()
  22. # 章节序
  23. chapter_order = scrapy.Field()
  24. # 漫画简介
  25. summary = scrapy.Field()
  26. # 后台配置的api_key
  27. api_key = scrapy.Field()
  28. # 用来区别采集源,自己写
  29. src = scrapy.Field()
  30. # 用来唯一定义每个漫画,可以是该漫画的url,也可以是该漫画在被采集站的id
  31. src_url = scrapy.Field()
  32. # 用来唯一定义每个章节,与src_url同理
  33. c_src_url = scrapy.Field()
  34. # 章节链接
  35. link_url = scrapy.Field()

2)setting.py

  1. BOT_NAME = 'sixmh7'
  2. SPIDER_MODULES = ['sixmh7.spiders']
  3. NEWSPIDER_MODULE = 'sixmh7.spiders'
  4. USER_AGENT = 'Mozilla/5.0'
  5. ROBOTSTXT_OBEY = False
  6. ITEM_PIPELINES = {
  7. 'sixmh7.pipelines.Sixmh7Pipeline': 1,
  8. }

3)sixmh.py(正式版)

  1. class SixmhSpider(scrapy.Spider):
  2. name = 'sixmh'
  3. def __init__(self):
  4. # 章节链接server域名
  5. self.server_link = 'http://www.sixmh7.com'
  6. self.allowed_domains = ['www.sixmh7.com']
  7. self.start_urls = ['http://www.sixmh7.com/23370/']
  8. # 可以查看scrapy文档
  9. def start_requests(self):
  10. yield scrapy.Request(url=self.start_urls[0], callback=self.parse1)
  11. # 解析response,获取每个大章节图片链接地址
  12. def parse1(self, response):
  13. items = []
  14. # 漫画名
  15. book_name = response.xpath('//div[@class="cy_title"]/h1/text()').extract()[0]
  16. # 漫画别名
  17. nick_name = response.xpath('//div[@class="cy_title"]/h1/text()').extract()[0]
  18. # 分类
  19. tags = response.xpath('//div[@class="cy_xinxi"]/span/text()').extract()[3].replace("标签:", "")
  20. # 作者名字
  21. author = response.xpath('//div[@class="cy_xinxi"]/span/text()').extract()[0].replace("作者:", "")
  22. # 状态,1代表完结,0代表连载中
  23. status = response.xpath('//div[@class="cy_xinxi"]/span/font/text()').extract()[0]
  24. if '连载中' == status:
  25. end = 0
  26. else:
  27. end = 1
  28. # 封面图远程地址
  29. cover_url = response.xpath('//div[@class="cy_info_cover"]/img/@src').extract()[0]
  30. # 漫画简介
  31. summary = response.xpath('//div[@class="cy_xinxi cy_desc"]/p/text()').extract()[0]
  32. # 章节链接地址
  33. urls = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/@href').extract()
  34. # 获取所有的章节名
  35. dir_names = response.xpath('//ul[@id="mh-chapter-list-ol-0"]/li/a/p/text()').extract()
  36. data = {
  37. "id": 23370,
  38. "id2": 1
  39. }
  40. response = requests.post("http://www.sixmh7.com/bookchapter/", data=data)
  41. for index in range(len(response.json())):
  42. link_url = "/23370/" + response.json()[index]['chapterid'] + ".html"
  43. urls.append(link_url)
  44. dir_name = response.json()[index]['chaptername']
  45. dir_names.append(dir_name)
  46. # 保存章节链接和章节名
  47. for index in range(len(urls)):
  48. item = Sixmh7Item()
  49. item['api_key'] = 'abc123456'
  50. item['link_url'] = self.server_link + urls[index]
  51. item['chapter_name'] = dir_names[index]
  52. item['chapter_order'] = re.sub('\D', '', dir_names[index])
  53. item['book_name'] = book_name
  54. item['nick_name'] = nick_name
  55. item['tags'] = tags
  56. item['author'] = author
  57. item['end'] = end
  58. item['cover_url'] = cover_url
  59. item['summary'] = summary
  60. item['src'] = self.server_link
  61. item['src_url'] = self.start_urls[0]
  62. item['c_src_url'] = self.server_link + urls[index]
  63. item['area_id'] = 1
  64. items.append(item)
  65. # 根据每个章节的连接,发送request请求,并传递item参数
  66. for item in items:
  67. yield scrapy.Request(url=item['link_url'], meta={'item': item}, callback=self.parse2)
  68. # 解析一个章节的第一页的页码数和图片链接
  69. def parse2(self, response):
  70. # 接收传递的item
  71. item = response.meta['item']
  72. # 下面一句不能少,是用来更新要解析的章节链接
  73. item['link_url'] = response.url
  74. hxs = Selector(response)
  75. # 获取章节第一页图片的链接
  76. eval_js = hxs.xpath('//script/text()').extract()[2].strip()
  77. js = """
  78. function decode(code) {
  79. if(code.indexOf("eval(function")>-1){
  80. code = code.replace(/^eval/, '');
  81. code = eval(code);
  82. return code;
  83. }
  84. }
  85. """
  86. com = execjs.compile(js)
  87. images = com.call('decode', eval_js)[13:].replace(']', '').split(",")
  88. tags = []
  89. for i in images:
  90. tags.append(eval(i))
  91. # 将获取的章节的第一页的图片链接保存到img_url中
  92. item['images'] = ','.join(tags)
  93. # 返回item,交给item pipeline下载图片
  94. yield item

这一段代码比较多,但是我相信只要你一步步敲过来,那么肯定很容易理解代码,而且我在学习原博客的过程中,也是遇到了许多坑,修改了很多地方,如果你直接复制我的代码却没法运行,你可以这么做:将报错以后的地方全部注释,然后print输出报错的东西(比如item报错你就print(item)一下),然后对照报错信息进行修改。

4)pipelines.py

  1. import requests
  2. class Sixmh7Pipeline:
  3. def process_item(self, item, spider):
  4. url = 'http://www.xswang.online/api.php/postbot/save'
  5. print(item)
  6. res = requests.post(url=url, data=item)

5)运行

scrapy crawl sixmh

四、总结和后续


总的来说,学了这个教程后就有思路能爬取某个网站的所有漫画之类的了,但我依旧存在以下几个问题:

复杂的动态加载如何实现爬取
遇到需要登录,甚至需要vip的内容如何爬取
这些就留着接下来一段时间学习了

下一章将会进行6漫画网站的全站漫画爬取
小浣熊CMS爬虫实战(一)icon-default.png?t=L9C2http://www.yzpblog.cn/index.php/2021/10/29/%e5%9f%ba%e4%ba%8e%e5%b0%8f%e6%b5%a3%e7%86%8a%e6%bc%ab%e7%94%bbcms%e7%9a%84python%e7%88%ac%e8%99%ab%e9%a1%b9%e7%9b%ae%e5%ae%9e%e6%88%98%ef%bc%88%e4%b8%80%ef%bc%89/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/55508
推荐阅读
相关标签
  

闽ICP备14008679号