Python爬取淘宝商品信息--无法获取商品页HTML问题解决（利用Anaconda中的Spyder）_淘宝网商品爬取不了 html没有商品信息

作者：盐析白兔 | 2024-03-12 23:33:02

踩

淘宝网商品爬取不了 html没有商品信息

近来，刚开始学习爬虫，跟着教程尝试进行了淘宝网页商品信息（商品名称和价格）的爬取，遇到了爬取时候无法获取商业页面html的情况（主要是因为淘宝需要用户登陆后才能够进行相关商品信息的检索），所以本篇主要讲解我借鉴别人的亲测可用的解决方法

参考博文：https://blog.csdn.net/Guanhai1617/article/details/104120581

先放上运行结果：上述为运行结果
解决方法：通过将requests.get()方法中的属性headers设置成自己登陆淘宝后的header字段即可
如何获得自己的header字段？？
下面是以Google浏览器为例的详细步骤：

（1）打开淘宝网https://www.taobao.com/ 后，进入登陆页面先进行登陆操作；
（2）登陆成功后，在商品检索框中输入你想要检索的商品名称（如：羽毛球。。）然后在任一页面空白处右键鼠标——>"检查”选项得到如下页面（见下图1），选择Network选项，找到以search？q开头的文件,右键
（3）选择copy，copy as cURL（bash）

图1 在这里插入图片描述

在这里插入图片描述

（4）在https://curl.trillworks.com/，将上一步复制的内容粘贴到curl command窗口
（5）复制右侧的headers内容，在程序中用以变量header保存，作为参数传给requests.get(url，headers=header)

最后贴上代码（需要自己改动下方可运行）

import requests
import re

def getHTMLText(url):
   1
2
3
4

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/226474