爬虫工作量由小到大的思维转变---＜第二十三章 Scrapy开始很快,越来越慢(医病篇)＞

作者：编程谜题解决者 | 2024-01-29 13:31:27

踩

诊断篇https://blog.csdn.net/m0_56758840/article/details/135170994?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170333243316800180644102%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=170333243316800180644102&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-135170994-null-null.142%5Ev96%5Epc_search_result_base7&utm_term=%E7%88%AC%E8%99%AB%E5%B7%A5%E4%BD%9C%E9%87%8F%E7%94%B1%E5%B0%8F%E5%88%B0%E5%A4%A7%E7%9A%84%E6%80%9D%E7%BB%B4%E8%BD%AC%E5%8F%98---%EF%BC%9C%E7%AC%AC%E4%BA%8C%E5%8D%81%E4%BA%8C%E7%AB%A0%20Scrapy%E5%BC%80%E5%A7%8B%E5%BE%88%E5%BF%AB%2C%E8%B6%8A%E6%9D%A5%E8%B6%8A%E6%85%A2%28%E8%AF%8A%E6%96%AD%E7%AF%87%29%EF%BC%9E&spm=1018.2226.3001.4187

前言:

诊断篇已经讲了(链接在上面),如何分析出自己的scrapy出了什么问题! 一般来说,如果不是网络ip问题,大部分都是内存泄漏问题~

而在内存泄漏里面,普遍的现象就是request和item的处理,在一开始就出现了设计问题;本章,就来讲讲,这两个部位出现问题的`通治法`!

---------就像,看到发热流鼻涕的,就给他999感冒灵! 看到这两出现问题,我也先给开个`通药`!

正文:

问题分析:

当通过Telnet检测到Scrapy中有大量的请求（request）和数据项（item）堆积，并且最老的请求或数据项的时间戳显示为较长时间前（如几百秒前),是什么原因导致的呢?

答:

爬虫逻辑问题：可能的原因是爬虫逻辑中存在问题，导致爬虫无法及时处理或发送请求。这可能是由于某些错误的条件判断或复杂的逻辑流程导致的。例如，在处理请求时，可能发生了死循环或未正确处理返回的响应，导致请求无法完成并持续堆积。
下载或处理延迟：这个问题也可能由于下载或数据处理的延迟引起。如果某些请求需要较长时间才能完成下载或处理，而在此期间新的请求不断被添加到队列中，就会导致堆积的情况。这可能是由于目标网站的响应时间较慢、Scrapy设置的下载延迟较低或数据处理过程较为耗时等原因引起的。
并发设置不合理：Scrapy的并发设置可能会影响请求和数据项的堆积情况。如果并发设置过高，则会导致过多的请求同时发送和处理，可能会造成请求堆积。相反，如果并发设置过低，则处理速度可能无法跟上请求的生成速度，也会导致请求和数据项的堆积。
资源限制：Scrapy运行的系统资源限制（例如CPU、内存、网络带宽等）也可能是问题的原因。如果系统资源不足，Scrapy无法及时处理请求和数据项，导致堆积的情况发生。

剖析+解决:

既然已经知道了,可能是这4项解决影响的;那么怎么解决他们呢?

答:

爬虫逻辑问题：

仔细检查爬虫代码并进行逐行调试，查找可能导致请求堆积的逻辑错误。
检查条件判断和循环语句是否正确，确保它们能够正常终止和跳出。
确保在处理响应或生成请求时，正确地使用回调函数和管道等Scrapy机制。

下载或处理延迟：

增加下载延迟(DOWNLOAD_DELAY)，使得请求之间有较长的时间间隔。
检查和优化爬虫中的数据处理过程，确保它们能够高效地处理数据项。
调整Scrapy的并发设置，适当限制同时发送和处理的请求数量。

并发设置不合理：

调整Scrapy的并发设置，适当增加并发请求和并发处理的数量，以提高处理能力。
分析系统资源使用情况，确保调整后的并发设置不会超出系统资源的限制。
根据目标网站的响应速度和服务器负载情况，动态调整并发设置。

资源限制：

增加系统资源，例如更强大的计算机、更高带宽的网络连接等。这样可以提供更多的处理能力以减轻请求堆积的压力。
使用分布式架构，如Scrapy-Redis或Scrapyd，将任务分发到多个节点上进行处理，以扩展处理能力。
优化爬虫代码和数据处理过程，提高其效率以减少资源占用。

问题通治法:

1. 增加并发限制：检查Scrapy的并发设置，例如`CONCURRENT_REQUESTS`和`CONCURRENT_ITEMS`。你可以尝试增加这些设置的值，以允许更多的同时请求和处理，从而减少请求和数据项的堆积。不过，你需要根据自己的网络和系统资源进行适当的调整，避免对服务器和网络造成过大的压力。

细讲:

打开Scrapy项目的设置文件（通常是settings.py），找到并发设置的相关项，例如CONCURRENT_REQUESTS和CONCURRENT_ITEMS。
增加这些设置的值，以允许更多的同时请求和处理。例如，将CONCURRENT_REQUESTS设置为10，CONCURRENT_ITEMS设置为100。


# settings.py
CONCURRENT_REQUESTS = 10
CONCURRENT_ITEMS = 100

2. 调整下载延迟：如果请求过多导致了堆积，你可以尝试调整下载延迟。通过增加`DOWNLOAD_DELAY`设置的值，可以让Scrapy在发送请求之间增加延迟，以减缓请求速率，防止过快地发送请求。这样有助于控制请求的堆积情况。

在Scrapy项目的设置文件中找到DOWNLOAD_DELAY设置项。
增加DOWNLOAD_DELAY的值，以减慢请求的发送速率。例如，将DOWNLOAD_DELAY设置为2秒。


# settings.py
DOWNLOAD_DELAY = 2

3. 优化爬虫逻辑：检查你的爬虫逻辑，确保它们高效而无死循环。确保你所写的爬虫逻辑能够在合理的时间内处理请求和数据项，不会由于错误的逻辑导致大量的堆积。

检查你的爬虫逻辑，确保它们高效而无死循环。
确保你的代码在处理每个请求时能够合理地执行必要的操作，而不会导致过度延迟或占用过多资源。

4. 使用分布式爬虫或调度器：如果以上方法无法解决问题，可以考虑使用分布式爬虫框架，如Scrapy-Redis或Scrapyd，以分散请求和数据项的处理负载。这样可以将请求和数据项分发到多个爬虫节点进行处理，从而减轻单个Scrapy进程的压力。

5. 调整资源配置：检查你的系统资源配置，确保Scrapy运行时有足够的CPU、内存和网络带宽。如果你的系统资源不足，可能会导致请求和数据项积压的问题。

总结:

在我们的Scrapy世界中，当遇到请求堆积和数据项积压的问题时，我们需要像一名智慧医生一样，找出病因并施以治疗。
首先，爬虫逻辑问题就像是食道中的狭窄，导致食物无法顺利通过。我们需要检查代码，确保没有死循环的陷阱，并确保正确处理返回的响应，避免请求不断堆积在那里。
其次，下载延迟问题就像是吞咽过快，导致食物堆积在胃里。调整下载延迟就像是调整我们的吃饭速度，减慢发送请求的速率，让Scrapy有足够的时间处理已下载的数据。
并发设置不合理就像是刚开的高速公路上交通堵塞。我们需要合理调整并发设置，增加交通流量的容量，使更多的请求能够顺畅通过。
最后，资源限制就像是我们缺乏能量和力量来处理大量请求和数据项。我们需要增加系统资源，就像补充营养和锻炼身体一样，让Scrapy拥有更强的处理能力。
通过综合利用这些治疗方法，就像一名医生调配药方一样，我们可以很好地解决Scrapy中的请求和数据项堆积问题，让我们的爬虫在网络世界中自由畅行。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/43112