算法编织者

这个屌丝很懒，什么也没留下！

热门标签

Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)_selenium并发处理多个页面

作者：算法编织者 | 2024-02-03 15:03:36

踩

selenium并发处理多个页面

专题系列导引

爬虫课题描述可见：

Python爬虫【零】课题介绍 – 对“微博辟谣”账号的历史微博进行数据采集

课题解决方法：

微博移动版爬虫

Python爬虫【一】爬取移动版“微博辟谣”账号内容(API接口)

微博PC网页版爬虫

Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

前言

前面专题文章【三】中，我们编写了微博PC网页版单页面内多线程爬取内容的爬虫工程。但因为翻页、下拉等操作仍为单线程执行，并且耗时较高，所以总体执行速度仍然不太可观。尤其是网络不理想的情形下，加载页面、翻页格外耗时，拖累了整体的效率。
因此设想，是否可以异步启动多个driver驱动，数量为n；同时将微博辟谣240页数据分割为n份的piece，每个driver驱动负责分析爬取一部分piece，最后再汇总，写入表格，来实现整体异步并行爬取的逻辑，提升整个工程的效率。
此文我们仍然是基于【二】【三】中的项目进行改造升级，让其实现selenium多线程异步处理多页面的功能。

一.改造多页面多线程

对于整个设计流程，之前CrawlHandle串行方法内的逻辑没有问题，仍然是执行五个步骤。前面的启动driver、登录认证，后面的关闭driver、写入数据，都没有变化。
唯一需要做改动的是步骤三，此时仅用Crawl类已无法满足要求，因为类中def crawler_all_wb_and_save_df()方法的设计，从一开始就是串行处理的。所以我们创建新的爬取类：BatchCrawl

1. 新爬取类：BatchCrawl

a. 初始化

因此我们需要仿照Crawl类，写一个并行处理的BatchCrawl类，此类也有def crawler_all_wb_and_save_df()方法，只是改造成了并行启动多driver、并行爬取的方法。具体如下：

class BatchCrawler:

    def __init__(self, driver_num, all_page_num, async_flag=True):
        self.driver_num = driver_num
        self.all_page_num = all_page_num
        self.async_flag = async_flag
        # 定义空df，以装载处理完的数据
        self.excel_df = DataFrame(columns=EXCEL_COLUMNS)

        self.driver = None
        self.cookies = None
1
2
3
4
5
6
7
8
9
10
11

可以看到多了很多参数。因为要分piece并行处理，所以微博总共有多少页，分几片，每片包含多少页微博，这些参数需要预先传入。

b. crawler_all_wb_and_save_df()方法

BatchCrawl类的def crawler_all_wb_and_save_df()方法，结合Crawl类的方法改造如下：

    def crawler_all_wb_and_save_df(self):
        """
        不断爬取所有微博内容数据，并存入excel_df最末端
        :param driver:
        :return:
        """

        try:
            # 初始化启动一批driver，每个driver负责若干页的爬取
            self.__init_b_driver_list()

            thread_list = []
            for b_driver in self.b_driver_list:
                # 多线程：
                thread = util.WBCrawlerThread(b_driver.crawler_batch_wb_and_save_df)
                thread_list.append(thread)
                thread.start()
            # 取结果
            for thread in thread_list:
                thread.join()
                self.excel_df = self.excel_df.append(thread.result)
            # 关闭批处理的driver
            self.__drivers_quit()

        except:
            print("爬虫爬取全部微博数据时出现问题，先返回数据:excel_df")
            traceback.print_exc()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

步骤如下：

构造一批可以异步启动的driver浏览器
异步启动上面的driver
等待异步爬取完成后，取出每个driver内的结果df，组成大的结果df

c. __init_b_driver_list()方法

def __init_b_driver_list()方法会启动一批driver，每个driver、编号数、对应piece的页面都封装入BatchDriver对象中，存入self.b_driver_list属性内；

    def __init_b_driver_list(self):
        """
        初始化启动一批driver，每个driver负责若干页的爬取
        :return:
        """

        b_driver_list = []
        page_size = math.ceil(self.all_page_num / self.driver_num)
        print("初始化启动一批driver：数量：%s，每个driver负责处理page数：%s" % (self.driver_num,page_size))

        for index in range(self.driver_num):
            start_page = page_size * index + 1
            end_page = page_size * ( index + 1 ) if index < (self.driver_num - 1) else self.all_page_num
            p_driver = None
            if index == 0:
                p_driver = BatchDriver(index + 1, start_page, end_page, self.cookies, self.driver)
            else:
                p_driver = BatchDriver(index + 1, start_page, end_page, self.cookies, None)
            b_driver_list.append(p_driver)

        self.b_driver_list = b_driver_list
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

2. BatchDriver

BatchDriver是异步处理多页面功能的核心类。存储了本批次的driver、编号、driver负责的微博piece页面区间等属性；并且编写了爬取方法def crawler_batch_wb_and_save_df()，Thread框架正是多线程执行此方法，实现了异步爬取的功能。
定义如下：

class BatchDriver:
    """
    多线程分批次处理若干页的driver，每个driver处理start_page到end_page内的爬取
    """

    def __init__(self, index, start_page, end_page, cookies, driver=None, async_flag=True):

        # 定义空df，以装载处理完的数据
        self.excel_df = DataFrame(columns=EXCEL_COLUMNS)

        self.index = index
        self.start_page = start_page
        self.end_page = end_page
        self.async_flag = async_flag

        # 以下A、B两种创建driver方式二选一
        # A.创建没有chrome弹框的driver驱动；注意：此种情况有可能出现无法下拉页面、点击下一页等操作
        # # 创建chrome参数对象
        # opt = webdriver.ChromeOptions()
        # # 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数
        # opt.set_headless()
        # driver = webdriver.Chrome(options=opt)
        if not driver:
            # B. 创建传统driver
            driver = webdriver.Chrome()
            # 要先打开URL，再添加cookie;但此链接可能会被跳转passport.weibo.com登录页，因此要检测
            driver.get(WB_PIYAO_URL_PAGE % self.start_page)
            time.sleep(0.5)

            # 必须要清除cookie再set，否则登录态不生效，无法翻页
            driver.delete_all_cookies()
            # print("cookie now:%s" % driver.get_cookies())
            for cookie in cookies:
                # print("driver%s 初始化cookie: %s" % (index, cookie))
                driver.add_cookie(cookie)

            driver.refresh()
            time.sleep(3)

            while not driver.current_url.startswith(WB_PIYAO_URL):
                print("URL不对，需要刷新 URL=%s" % driver.current_url)
                driver.get(WB_PIYAO_URL_PAGE % self.start_page)
                time.sleep(3)

            # 如果跳转到passport.weibo.com，必须再设一次cookies，才能真正登录态有效
            print("再设登录态")
            driver.delete_all_cookies()
            for cookie in cookies:
                driver.add_cookie(cookie)
            driver.refresh()

        print("=== driver%i[%i,%i] 启动成功" % (index, start_page, end_page))
        self.driver = driver


    def crawler_batch_wb_and_save_df(self):
        """
        不断爬取所有微博内容数据，并存入excel_df最末端
        :param driver:
        :return:
        """

        try:
            # 没到本批的最后一页，则一直循环翻页
            for page in range(self.start_page, self.end_page + 1):
                self.page = page
                # 1. 下拉3次至本页最底端，会出现分页按钮  需要拉到最底，以防selenium 出现 element not interactable 错误
                for i in range(2):
                    print("  分批爬虫:driver%i 下拉到最底端操作，第 %i 次 ..." % (self.index, i))
                    self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
                    # 为防止下拉时，新页面短时间加载不出来，让程序睡眠几秒等待
                    time.sleep(2)

                # 补救措施：若3次下拉还不能到最底，还需再循环
                while not util.is_element_exist_by_css_selector(self.driver, "div[class='W_pages']"):
                    print("  分批爬虫:driver%i 没下拉到最底端，再次下拉..." % (self.index))
                    self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
                    # 为防止下拉时，新页面短时间加载不出来，让程序睡眠几秒等待
                    time.sleep(1)

                # 2. 下拉完毕，展示全部内容后，爬取此页微博数据，并添加入df中
                self.__crawler_page_and_save_df()

                # 有时候翻页会失败。在此做检查，看看微博页面中的页数是否为程序中的页数，如不一致则提示
                wb_page_num = self.driver.find_element_by_css_selector(".W_pages>span>a").text
                wb_page_num = wb_page_num[2:-2].strip()
                if str(self.page) != wb_page_num:
                    print("程序页面：%s 与微博页面:%s 不匹配，可能有翻页出错的情况，请检查！" % (self.page, wb_page_num))

                # 3. 检查是否有"下一页"按钮
                w_page = self.driver.find_element_by_class_name("W_pages")
                if "下一页" in w_page.text:
                    # 如果有“下一页”，则翻页至下一页
                    w_page_next = w_page.find_element_by_class_name("next")

                    # w_page_next.send_keys("\n")
                    # w_page_next.click()
                    # 要用如下写法先移动到button上，再点击，不然总是 ElementClickInterceptedException
                    webdriver.ActionChains(self.driver).move_to_element(w_page_next).click(w_page_next).perform()
                    # self.driver.execute_script("arguments[0].click();", w_page_next)
                    time.sleep(2)
                else:
                    # 如果没有，则说明到了最后一页，整个爬取完成
                    print("分批爬虫:driver%i 已经到最后一页 %i，爬取微博完成" % (self.index, self.page))
                    break
            else:
                print("分批爬虫:driver%i 循环到最后一页 %i，爬取微博完成" % (self.index, self.end_page))
        except:
            print("分批爬虫:driver%i 出现问题! 先返回数据excel_df，可能不全" % self.index)
            traceback.print_exc()

        return self.excel_df

    def __crawler_page_and_save_df(self):
        """
        使用selenium工具爬取当前微博页面信息
        :param page:
        :return:
        """
        wb_page_start_time = time.time()  # 用于计时

        wb_list = []
        # print("开始爬取第 %i 页数据..." % page)
        try:
            # 1. 找出微博内容框架list，也就是每个微博内容块的集合
            wb_cardwrap_list = self.driver.find_elements_by_class_name("WB_feed_type")

            if self.async_flag:
                # 多线程处理，每个线程解析一个微博内容框架，从中提取所需数据
                wb_list = self.__async_crawler_weibo_info(wb_cardwrap_list)
            else:
                # 单线程处理
                wb_list = self.__sync_crawler_weibo_info(wb_cardwrap_list)
        except:
            print("driver%i 爬取处理 第 %i 页html数据时出错! " % (self.index, self.page))
            traceback.print_exc()
        else:
            print("driver%i 成功爬取第 %i 页数据，爬取有效微博数：%s, 处理本页数据耗时：%s " % (
            self.index, self.page, len(wb_list), time.time() - wb_page_start_time))

        # 不为空则写入df中
        if wb_list:
            self.excel_df = self.excel_df.append(wb_list)

    def __async_crawler_weibo_info(self, wb_cardwrap_list):
        """
        用多线程方式异步并发爬取微博内容
        :param wb_cardwrap_list:
        :return:
        """
        wb_list = []  # 爬取到的微博信息整理后的储存list
        thread_list = []
        for wb_count in range(len(wb_cardwrap_list)):
            # 多线程：约18秒左右处理完45条数据，比单线程串行36秒左右减少一半时间。 Python多线程是伪多线程
            thread = util.WBCrawlerThread(util.crawler_weibo_info_func,
                                          (wb_cardwrap_list[wb_count], self.page, wb_count))
            thread_list.append(thread)
            thread.start()
        # 取结果
        for thread in thread_list:
            thread.join()
            # 去除None
            if thread.result:
                wb_list.append(thread.result)

        return wb_list

    def __sync_crawler_weibo_info(self, wb_cardwrap_list):
        """
        同步爬取微博数据
        :return:
        """
        wb_list = []  # 爬取到的微博信息整理后的储存list
        for wb_count in range(len(wb_cardwrap_list)):
            # 多线程：约16秒左右处理完45条数据，比单线程串行35秒左右减少一半时间。 Python多线程是伪多线程
            etl_json = util.crawler_weibo_info_func(wb_cardwrap_list[wb_count], self.page, wb_count)
            if etl_json:
                wb_list.append(etl_json)

        return wb_list

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181

此类中的爬取逻辑与之前Crawl类中的爬取逻辑类似，只是多了piece前后页面的判断，而非像之前总会从第一页开始，一直爬取到最后一页了；
并且此多线程类中，也仍可实现再多线程爬取页面内的数据，通过参数async_flag来控制（但博主自己试async_flag为true时，并没有性能提升的效果，可能是多线程下的效率已经饱和，也跟python本文伪并发有关）。

3. main.py

入口创建的对象是BatchCrawler对象，如下

if __name__ == '__main__':
    # 网页爬取：分批处理，每批若干页
    b_crawler = batch_crawl.BatchCrawler(4, 240, True)
    crawl_handle.crawl_wb_and_write_excel(b_crawler)
1
2
3
4

以上即为selenium单页面内多线程爬取内容的改造

二. 程序执行

执行过程中，前面登录与单线程没区别；但当用户登录成功，下拉两次后，开始爬取时，可以看到启动了另外4个chrome页面，每个页面都在独立的爬取。
在这里插入图片描述

后台不再是按微博页面顺序、内部上下顺序依次爬取，而是每个driver下都在爬取与打印，后台打印日志的顺序也交错输出，可能出现第1页与第100页的微博，同时在提取数据。
在这里插入图片描述

三. 问题总结

selenium爬取网页是模拟人操作页面浏览的方式，进行信息提取。因此实际执行中发现，如果程序执行find_element_by_XXX()、click()等查询和点击操作时，如果driver弹出的浏览器，有不限于如下的一些情况 (被最小化隐藏、被其他程序页面覆盖浏览器、要操作的对象还在滚动条区域内，没页面中显示、被其他可以click的标签比如消息提醒button布局覆盖、driver窗口被拉太瘦以至于下拉最底后js无法展示“下一页”按钮…)，则selenium的操作会无法生效，甚至报错can’t find element，导致程序异常。这个问题在电脑全屏打开其他窗口时尤其容易发生，例如在看pycharm后端日志、打开其他浏览器全屏搜索问题。

因此在程序运行时，请保持driver浏览器始终在最顶端，显示窗口足够大，并在中途不要操作，等待爬取完成；同时，driver浏览器窗口需要保持一定的大小，当触发登录点击按钮、下拉到最低端点击下一页按钮时，都需要在chrome浏览器内能肉眼观测到这个元素
对于多线程程序，最好只启动2个driver，或者用多块屏幕的电脑，将driver浏览器分散在多个屏幕中同时显示，保证每个driver浏览器不会全屏化，不会彼此覆盖，并在中途不要操作，等待爬取完成

同时开多个窗口可能会引起电脑性能不够，彼此难在窗口并排放置的情况。因此可以用如下方式让chrome窗口只在后台运行，不在前端展示，但此方法有一定概率让程序下拉和翻页失效，读者可以自行尝试决定是否启用

        # A.创建没有chrome弹框的driver驱动；注意：此种情况有可能出现无法下拉页面、点击下一页等操作
        # # 创建chrome参数对象
        opt = webdriver.ChromeOptions()
        # 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数
        opt.set_headless()
        driver = webdriver.Chrome(options=opt)
1
2
3
4
5
6

博主笔记本为酷睿i5二核，测试时，分为4个drive进行多线程跑批。经测算，每个driver爬取时间为25s，结合下拉翻页耗时，每个页面耗时约33s。每个driver负责60页微博，则耗时约为1980s，折合0.55小时。因为每个driver并发，所以理论上每个driver耗时都为如此，整个项目耗时也差不多。但实际上因为机器性能有限、python伪多线程的问题，耗时会略有增加，基本需要0.7~0.9小时。
多线程程序涉及登录态cookie复制、多窗口多并发等问题，从实际执行结果来看稳定性并不如前面几种方法可靠。博主已尽量做到多种极端情况判断，提高了稳定性，但多线程程序仍以实验性质为主，读者尽量不采用此种方式来实际获取数据
本程序初稿编时间为2020年12月，整理发表时间为2021年3月20日，此时间点程序运行正常。但微博HTML页面会随时间而更新，因此有可能导致本程序selenium步骤执行失效。本程序旨在抛砖引玉，希望读者能从中获取灵感，开发出适合自己的版本

执行程序

项目工程编译了windows版本执行程序：微博数据采集python+selenium执行程序：WBCrawler.exe

执行项目前，需要下载selenium对应的浏览器驱动程序（driver.exe），并放在本机环境变量路径中，否则会报错。安装操作具体可见博客专题中的指导【二】
执行程序时，会在系统用户默认路径下，创建一个虚拟的python环境（我的路径是C:\Users\Albert\AppData\Local\Temp_MEI124882\），因此启动项目所需时间较长（约20秒后屏幕才有反应，打出提示），请耐心等待；也正因如此，执行电脑本身环境是可以无需安装python和selenium依赖包的；同时最后爬取保存的excel也在此文件夹下。

本项目采用cmd交互方式执行，因此等到屏幕显示：

 选择爬取方式：
 1. 移动版微博爬取
 2. PC网页版微博爬取(单线程)
 3. PC网页版微博爬取(页面内多线程)
 4. PC网页版微博爬取(多线程异步处理多页面)
1
2
3
4
5

后，用键盘输入1~4，敲回车执行

此exe编译时，工程代码内编写的最终excel记录保存地址为：相对工程根路径下的excel文件夹；因此当本exe执行到最后保存数据时，会因为此excel文件夹路径不存在而报错。若在工程中将保存地址改为绝对路径（例如D:\excel\），再编译生成exe执行，则最终爬取数据可以正确保存

项目工程

工程参见：微博数据采集python+selenium工程：WBCrawler.zip

本专题内对源码粘贴和分析已经比较全面和清楚了，可以满足读者基本的学习要求。源码资源为抛砖引玉，也只是多了配置文件和一些工具方法而已，仅为赶时间速成的同学提供完整的项目案例。大家按需选择

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/57075