python爬虫

作者：编程探险家 | 2024-01-25 09:41:20

踩

python爬虫

一.简介了解

1.爬虫在使用场景中的分类：

通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。

聚焦爬虫：是建立在爬虫的基础之上。抓取的是页面的局部内容。

增量爬虫(重点)：检测网站数据更新的情况。只会抓取网站中最新更新出来的数据。

2.爬虫的与矛盾

互联网中50%的收益来源于爬虫。

反爬机制：

robots.txt协议：如

http协议
- 概念：就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
- User-Agent：请求载体的身份标识
- Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息
- Content-Type：服务器响应回客户端的数据类型

https协议：
- 安全的超文本传输协议

加密方式
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/41829