Python爬虫

作者：神奇cpp | 2024-08-09 19:54:46

踩

python爬虫

Python爬虫

一、爬虫概念

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。爬虫, 又称网页蜘蛛或网络机器人。爬虫是模拟人操作客户端(浏览器, APP) ，向服务器发起网络请求，抓取数据的自动化程序或脚本。

二、爬虫的基本流程

在这里插入图片描述

发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。
获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。
解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifulsoup，etree等，要解析json数据可以使用json模块，二进制数据，可以保存或者进一步的处理。
保存数据保存的方式比较多元，可以存入数据库（MySQL、Mongdb、Redis）也可以使用文件的方式进行保存。

三、正则表达式

正则表达式(regular expression)，又称规则表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一些过滤逻辑。在Python中正则表达式通过re模块来实现。

四、爬虫实例

1.爬取百度页面

import requests
# 1.确定url, 向服务器发送请求
url = 1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/954940