当前位置:   article > 正文

Python Selenium 自动化的笔记

Python Selenium 自动化的笔记

1.常用的一些第三方库

  1. import socket
  2. import sys
  3. from selenium import webdriver
  4. from selenium.webdriver.common.by import By
  5. import time
  6. import random
  7. from selenium.webdriver.support.ui import WebDriverWait
  8. from selenium.webdriver.support import expected_conditions as ec
  9. from selenium.webdriver.common.action_chains import ActionChains
  10. # from selenium.webdriver.chrome.options import Options
  11. from selenium.webdriver.chrome.service import Service
  12. import uiautomation as auto
  13. # import pyperclip
  14. import traceback
  15. from selenium.webdriver.common.keys import Keys
  16. from datetime import datetime
  17. from dateutil.relativedelta import relativedelta
  18. import os
  19. import requests
  20. import csv

2.URL小陷阱

        大部分URL都是https开头,但是遇到http开头的URL的时候,浏览器很可能会把http自动识别成https,导致无法进入正确的URL。使用driver.get()就会经常遇到这种情况,遇到这种情况我使用的方式是让uiautomation输入一遍完整的URL,避免浏览器或者driver.get()函数自动补全http为https。

3.自动化测试浏览器的初始化

  1. port = 49152
  2. my_driver_path = r"G:\Py\spider\venv\Scripts\chromedriver.exe"
  3. # my_driver_path = r"E:\Python\AutoUI\venv\Scripts\chromedriver.exe"
  4. # 获取当前脚本的绝对路径
  5. script_path = os.path.abspath(__file__)
  6. # 获取当前脚本的全名(包括路径和扩展名)
  7. script_fullname = os.path.basename(script_path)
  8. download_path = script_path.replace(f"{script_fullname}", "AutomationProfile")
  9. web_tittle = "88888888"
  10. target_url = '88888888'
  11. if is_port_in_use(port):
  12. print(f"Port {port} is in use")
  13. else:
  14. print(f"Port {port} is available")
  15. # 设置Chrome选项,以启用远程调试并指定一个端口
  16. chrome_options = webdriver.ChromeOptions()
  17. chrome_options.add_experimental_option("detach", True)
  18. chrome_options.add_argument('--disable-web-security')
  19. chrome_options.add_argument('--allow-running-insecure-content')
  20. chrome_options.add_argument("--ignore-certificate-errors")
  21. chrome_options.add_argument(f"--remote-debugging-port={port}")
  22. chrome_options.add_argument("--disable-infobars")
  23. prefs = {
  24. "download.default_directory": f"{download_path}",
  25. "download.prompt_for_download": False,
  26. "download.directory_upgrade": True,
  27. "safebrowsing.enabled": False
  28. }
  29. chrome_options.add_experimental_option("prefs", prefs)
  30. # 创建webdriver服务实例,指定chromedriver的路径
  31. service = Service(executable_path=my_driver_path)
  32. # 创建webdriver实例,并传入定义的选项
  33. driver = webdriver.Chrome(service=service, options=chrome_options)
  34. # 设置页面加载超时时间
  35. driver.set_page_load_timeout(10)
  36. ac = ActionChains(driver)

        显然我这里用的是谷歌浏览器,指定了浏览器驱动的位置,指定了自动化测试浏览器使用的端口,指定端口的好处就是可以让其他脚本来接管同一个自动化测试浏览器,指定了谷歌浏览器文件下载的位置,同时把谷歌浏览器的detach设置为True,意思是这个脚本创建启动了一个自动化测试的浏览器实例之后与该浏览器分离,这样在脚本运行结束之后,浏览器就不会被关闭了,可以一直存在,直到自己手动去关闭这个浏览器。

        我还给浏览器设置了一些可能有用的设置,有一部分可能是不生效的,但是不影响。

        我常用的用于更新谷歌浏览器驱动的网址是这个: ChromeDriver - WebDriver for Chrome

这个网址提供的谷歌浏览器驱动非常全面了。

4.找不到元素的问题

        可能是iframe

        如果死活找不到某个元素,那么很可能是某个元素位于某个iframe中,或者某个ifram的嵌套的嵌套的嵌套的iframe中。这种情况使用 driver.switch_to.frame(target_elements) 即可。

  1. def switch_frame_id(id):
  2. target_elements = find_elements_id(id)
  3. driver.switch_to.frame(target_elements)

        不一定是通过ID,也可以是通过CLASS等其他特征

        可能是标签页没切换对、遇到空白页的干扰、遇到开发者控制台的干扰等

        那么你就可以把空白页先关闭,同时切换到指定名称的标签页

  1. def close_about_blank():
  2. global driver
  3. window_handles = driver.window_handles
  4. # print(driver.title)
  5. # 获取当前所有打开的窗口的句柄
  6. # print(window_handles)
  7. for handle in window_handles:
  8. driver.switch_to.window(handle)
  9. # print(driver.title)
  10. if driver.title == "":
  11. driver.close()
  12. continue
  13. def get_target_title():
  14. global driver
  15. window_handles = driver.window_handles
  16. # print(driver.title)
  17. # 获取当前所有打开的窗口的句柄
  18. # print(window_handles)
  19. for handle in window_handles:
  20. driver.switch_to.window(handle)
  21. # print(driver.title)
  22. if driver.title == web_tittle:
  23. break
  24. # print(driver.title)

        值得注意的是,页面发生过跳转之后,先前有效的tag立刻失效

        如果害怕这个问题造成的困扰,你可以在每次使用这个tag之前重新再获取一次这个tag

        获取tag的时候,最保险的是使用find_elements,这样的话不管能不能找到该tag,它都会返回一个列表,即使这个列表是空的,也不会爆红,如果是find_element遇到找不到该元素的情况,就会立马爆红,程序提前终止(如果没有捕获错误的相应措施的话)。

5.接管已经存在的自动化测试浏览器实例

        我们在启动浏览器的时候,指定了一个端口号,那么接管那个自动化测试浏览器的时候,用回那个端口号就可以了

  1. def down_file(
  2. accept_date_start,
  3. accept_date_end):
  4. # 设置Chrome选项,以连接到远程调试端口
  5. global chrome_options
  6. global service
  7. global driver
  8. global ac
  9. global start_date
  10. global end_date
  11. chrome_options = webdriver.ChromeOptions()
  12. chrome_options.add_experimental_option(f"debuggerAddress", f"127.0.0.1:{port}")
  13. # 创建webdriver服务实例,指定chromedriver的路径
  14. service = Service(executable_path=my_driver_path)
  15. # 创建webdriver实例,并传入定义的选项,这将接管现有的浏览器实例
  16. driver = webdriver.Chrome(service=service, options=chrome_options)
  17. # 设置页面加载超时时间
  18. driver.set_page_load_timeout(3)
  19. # driver = webdriver.Chrome(options=chrome_options)
  20. ac = ActionChains(driver)

6.延长一些步骤的待机时长

        不要觉得30秒才下载一个文件好像很慢,在你不使用IP代理池的时候,如果同一个IP在半小内或者一小时内下载的内容量过大时,服务器会送你一个502 Bad Gateway。又或者导致服务器限制你的流量或者把你拉黑。

        一般来说,慢就是快,越快就是越慢,越慢就是越快。

        熟练使用IP代理池当我没说,hhh

以上这些方法基本够用。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/36845?site
推荐阅读
相关标签
  

闽ICP备14008679号