python爬虫入门_搜狗爬取robots.txt

作者：笔触狂放9 | 2024-03-21 16:46:26

踩

搜狗爬取robots.txt

爬虫人门

一、什么是robots.txt协议

君子协议。规定了网站中那些数据不可以被爬取和可以被爬取

1、怎么打开robots.txt协议

在浏览器中输入

查看那些是否允许爬取

二、http协议

概念：服务器与客户端进行数据交互的一种形式

1、常用的请求头信息

user-Agent：请求载体的身份标识
在这里插入图片描述

Connection:请求完毕后，是断开连接还是保持连接

2、常用响应头信息

Content-Type:服务器响应回客户端数据类型

3、https协议

https协议：安全的超文本传输协议

4、加密方式（了解）

对称秘钥加密
非对称秘钥加密
证书秘钥加密

三、requests模块

urllib网络请求模块

requests网络请求模块

requests模块：python中原生的一款基于网络请求模块，功能强大、简单便捷、效率高
作用：模拟浏览器发送请求

1、如何使用：（requests模块的使用流程）

指定url（url指定是网址，如图：）
基于requests模块发送请求
获取响应数据
持久化存储

2、环境安装

pip install requests

3、实战编码

爬取搜狗首页的页面数据

代码如下：

import requests

# 1:指定url
url = "https://www.sogou.com/"

# 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)

# 3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
# 用print验证
# print(page_text)

# 4：持久化存储
# open() 函数的作用是打开一个文件71
# E:/Python/Python代码/爬虫/搜狗/sogou.html指定位置保存，W是写入模式
# w是写模式，r是读模式
# 格式：with open('文件路径','读写方式',编码) as 赋值变量:
with open('E:/Python/Python代码/爬虫/搜狗/sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    # 用write()方法向fp写入数据
print('爬取成功！！！')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/282050

python爬虫入门_搜狗爬取robots.txt

爬虫人门

一、什么是robots.txt协议

在浏览器中输入 查看那些是否允许爬取 二、http协议

三、requests模块

在浏览器中输入

查看那些是否允许爬取

二、http协议