Python爬虫页面分析，带你使用 re&xpath&etree_python中ertree爬虫

作者：从前慢现在也慢 | 2024-08-03 18:53:21

踩

python中ertree爬虫

- proxy
页面解析和数据提取
XML
XPath
lxml库

proxy

  proxies = {
  "http": "address of proxy"
  "https": "address of proxy"
  }
  
  rsp = requests.request("get", "http:xxxx", proxies=proxies)
1
2
3
4
5
6

代理有可能报错，如果使用人数多，考虑安全问题，可能会被强行关闭

用户验证

代理验证

  # 可能需要使用HTTP basic Auth，
  # 格式为 用户名:密码@代理地址, 端口地址
  proxy = {"http": "china:123456@192.168.1.123:4444"
  rsp = requests.get("http://www.baidu.com", proxies=proxy)
1
2
3
4

web客户端验证

如果遇到web客户端验证，需要添加auth= (用户名，密码)

  auth=("test1", "123456") # 授权信息
  rsp = requests.get("http://www.baidu.com", auth=auth)
1
2

cookie
- requests可以自动处理cookie信息
```
  
```

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/924363