赞
踩
- import requests
- # 发送GET请求到清华大学官网
- url = 'https://www.tsinghua.edu.cn/'
- response = requests.get(url)
- encoding = response.encoding
- # 获取并打印网页编码方式
- print(f"网页编码方式:{encoding}")
- import requests
- # 发送GET请求到清华大学官网
- url = 'https://www.tsinghua.edu.cn/'
- response= requests.get(url)
- encoding = response.apparent_encoding
- # 获取并打印网页编码方式
- print(f"网页编码方式:{encoding}")
requests.get()
函数在获取网页内容时,默认会尝试从HTTP响应头部的Content-Type
字段中提取编码信息来设置response.encoding
属性。然而,有时候服务器提供的编码信息可能不准确或者未提供,这时requests
库会使用chardet
库(如果已安装)来推测网页的实际编码,这推测出来的编码就是response.apparent_encoding
。
response.encoding
是根据HTTP响应头中的编码指示或者是通过chardet
自动检测后赋给requests
对象的编码属性。如果服务器报告的编码是ISO-8859-1
,则response.encoding
会被设置为ISO-8859-1
。
response.apparent_encoding
则是基于requests
内部的字符集探测机制得出的编码,即使服务器没有明确指定或指定得不准确,它也会尽量给出一个最佳猜测的编码,这里推测出的是UTF-8-SIG
。UTF-8-SIG
是一种特殊的UTF-8编码,它前面带有一个BOM(Byte Order Mark),主要用于标记文本文件的开始,表明其采用UTF-8编码且字节顺序是标准的(对于UTF-8来说字节顺序无关紧要,因为它是字节序无关的编码,但BOM仍然可能被用于标识文件类型)。
response.encoding
更倾向于直接使用服务器声明的编码,如果没有则可能依赖于自动检测的结果。response.apparent_encoding
是requests
库对实际内容做的更为直观的编码判断,通常用于解决服务器提供的编码信息不可靠的情况。如果两个属性返回不同的编码,通常建议优先考虑response.apparent_encoding
,因为它可能是网页内容实际使用的编码。当然,在解析网页内容时,最好的做法是先检查和确认编码是否正确,必要时手动调整后再进行解析。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。