【RPA开发】Selenium 实现网页自动化

作者：喵喵爱编程 | 2024-08-04 23:20:04

踩

网页自动化

开发时有时会遇到网页爬取限制的情况，那么此时可以通过 Selenium 来解决这个问题，因为 Selenium 是模拟浏览器执行网页爬取，相比 Request/API 操作更安全，服务器会完全认为是用户在用浏览器进行操作，如此可以实现网页自动化操作，由于 Selenium 是完全模拟浏览器操作，因此效率相比 API 更低。

1 Selenium 介绍

Selenium 简单来说是一个用于Web应用程序的自动化工具。

官方网址：Selenium
中文文档：Selenium with Python中文翻译文档
安装：pip install selenium

它允许用户使用各种编程语言（如Python, Java, C＃等）来驱动自动化，实现模拟真实用户在浏览器中的操作，如点击、输入、选择、滚动等，可用于自动化测试或爬虫开发。

Selenium与各种浏览器（如Chrome，Firefox，IE等）兼容，并提供交互式界面便于开发和调试。

2 驱动下载及测试

浏览器驱动是 Selenium 构建浏览器对象的基础，它是一种可以让 Selenium 与特定的浏览器进行交互的组件，能将 Selenium 命令翻译成与特定浏览器对应的命令，以实现对浏览器的自动化操作。

因此浏览器驱动对于 Selenium 非常重要，同时针对不同的浏览器，需要安装不同的驱动。下面以下载 Chrome 驱动作为演示：

2.1 确定浏览器版本

首先点击 chrome 浏览器最右侧的“...”图标，然后点击弹出的“帮助”中的“关于Google Chrome”，查看自己的版本信息。

这里我的版本是112.0.5615，下载对应版本的 Chrome 驱动。

2.2 下载驱动

Chrome 驱动链接：https://chromedriver.storage.googleapis.com/index.html

打开该链接，选择对应的版本单机（二选一）

由于我是使用 Window 环境进行开发，因此下载 window 版本驱动，按操作系统进行下载即可。

解压后有两个文件，我们需要的是 .exe 后缀的驱动。

2.3 测试驱动

接下来就是测试驱动成功与否了，我将其放到项目的根目录下（大家可自行选择放位置，Selenium 需要的是读取该驱动的路径）


# 导入webdriver
from selenium import webdriver
 
# 创建一个浏览器对象
driver = webdriver.Chrome(executable_path='./chromedriver.exe')

执行该文件，驱动成功启动 Chrome 浏览器声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】