当前位置:   article > 正文

Python爬虫页面分析,带你使用 re&xpath&etree_python中ertree爬虫

python中ertree爬虫

  • proxy

      proxies = {
      "http": "address of proxy"
      "https": "address of proxy"
      }
      
      rsp = requests.request("get", "http:xxxx", proxies=proxies)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 代理有可能报错,如果使用人数多,考虑安全问题,可能会被强行关闭
  • 用户验证

    • 代理验证

        # 可能需要使用HTTP basic Auth,
        # 格式为 用户名:密码@代理地址, 端口地址
        proxy = {"http": "china:123456@192.168.1.123:4444"
        rsp = requests.get("http://www.baidu.com", proxies=proxy)
      
      • 1
      • 2
      • 3
      • 4
  • web客户端验证

    • 如果遇到web客户端验证,需要添加auth= (用户名,密码)

        auth=("test1", "123456") # 授权信息
        rsp = requests.get("http://www.baidu.com", auth=auth)
      
      • 1
      • 2
  • cookie

    • requests可以自动处理cookie信息

        
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/924363
    推荐阅读
    相关标签
      

    闽ICP备14008679号