当前位置:   article > 正文

python爬虫入门_搜狗爬取robots.txt

搜狗爬取robots.txt

爬虫人门

一、什么是robots.txt协议

君子协议。规定了网站中那些数据不可以被爬取和可以被爬取

1、怎么打开robots.txt协议

在浏览器中输入
在这里插入图片描述
查看那些是否允许爬取
在这里插入图片描述
二、http协议

概念:服务器与客户端进行数据交互的一种形式

1、常用的请求头信息

user-Agent:请求载体的身份标识
在这里插入图片描述

Connection:请求完毕后,是断开连接还是保持连接

2、常用响应头信息

Content-Type:服务器响应回客户端数据类型

3、https协议

https协议:安全的超文本传输协议

4、加密方式(了解)

  • 对称秘钥加密

  • 非对称秘钥加密

  • 证书秘钥加密

三、requests模块

urllib网络请求模块

requests网络请求模块

  • requests模块:python中原生的一款基于网络请求模块,功能强大、简单便捷、效率高

  • 作用:模拟浏览器发送请求

1、如何使用:(requests模块的使用流程)

  • 指定url(url指定是网址,如图:)
    在这里插入图片描述

  • 基于requests模块发送请求

  • 获取响应数据

  • 持久化存储

2、环境安装

pip install requests

3、实战编码

  • 爬取搜狗首页的页面数据

代码如下:

import requests

# 1:指定url
url = "https://www.sogou.com/"

# 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)

# 3:获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
# 用print验证
# print(page_text)

# 4:持久化存储
# open() 函数的作用是打开一个文件71
# E:/Python/Python代码/爬虫/搜狗/sogou.html指定位置保存,W是写入模式
# w是写模式,r是读模式
# 格式:with open('文件路径','读写方式',编码) as 赋值变量:
with open('E:/Python/Python代码/爬虫/搜狗/sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    # 用write()方法向fp写入数据
print('爬取成功!!!')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/282050
推荐阅读
相关标签
  

闽ICP备14008679号