当前位置:   article > 正文

scrapy分布式学习遇到的一个坑,暂未解决,先记录_scrapy分布式一直处于监听中

scrapy分布式一直处于监听中

项目需求, 使用分布式, 对某个网站进行爬取 , 然后把数据都一起传递到同一个 redis 仓库中, 使用的scrapy -redis 组件.
运行环境, 本地 用虚拟机 Centos7.7 搭建了redis ,项目中新建了一个 爬虫工程,
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

爬虫文件中, 在爬虫类中新增一个 redis_key 的属性, 进行数据解析,

在这里插入图片描述

配置文件中, 指定管道类和配置 redis 的服务器 信息,

准备执行爬虫工程, 需要去到 爬虫工程下的spiders 目录下,
执行 scrapy runspider xxx.py

视频里, 此时出现在监听状态, 然后我们在 redis客户端中 lpush redis_key xxx.com 就可以进行爬取了.

但是我的项目里, 出现了一个问题, 是关于导包的问题.

在这里插入图片描述

提示找不到文件.

个人尝试的解决:
按照网上百度的方法, 把项目根目录设置成源, 但是依然不管用.
在这里插入图片描述

我也试过从爬虫文件所属的那个目录进行导包, 比如我爬虫文件都是在 PlanceScrapy 中, 我 from PlaceScarpy.fbsPro.fbsPro.items import FbsproItem
此时执行爬虫工程, 报错的是 没有找到PlanceScarpy 这个目录 .

目前, 依然没有解决这个问题, 等待有大佬指点一下

视频里执行 scrapy runspider xxx.py 的命令是在 spiders 目录下的
在这里插入图片描述
在这里插入图片描述
我的目录也是在这里
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/43154
推荐阅读
相关标签
  

闽ICP备14008679号