当前位置:   article > 正文

Python爬取淘宝商品信息--无法获取商品页HTML问题解决(利用Anaconda中的Spyder)_淘宝网商品爬取不了 html没有商品信息

淘宝网商品爬取不了 html没有商品信息

近来,刚开始学习爬虫,跟着教程尝试进行了淘宝网页 商品信息(商品名称和价格)的爬取,遇到了爬取时候无法获取商业页面html的情况(主要是因为淘宝需要用户登陆后才能够进行相关商品信息的检索),所以本篇主要讲解我借鉴别人的亲测可用的解决方法

参考博文:https://blog.csdn.net/Guanhai1617/article/details/104120581

先放上运行结果:上述为运行结果
解决方法:通过将requests.get()方法中的属性headers设置成自己登陆淘宝后的header字段即可
如何获得自己的header字段??
下面是以Google浏览器为例的详细步骤:

(1)打开淘宝网https://www.taobao.com/ 后,进入登陆页面先进行登陆操作;
(2)登陆成功后,在商品检索框中输入你想要检索的商品名称(如:羽毛球。。)然后在任一页面空白处右键鼠标——>"检查”选项得到如下页面(见下图1),选择Network选项,找到以search?q开头的文件,右键
(3)选择copy,copy as cURL(bash)

图1在这里插入图片描述

在这里插入图片描述

(4)在https://curl.trillworks.com/,将上一步复制的内容粘贴到curl command窗口
(5)复制右侧的headers内容,在程序中用以变量header保存,作为参数传给requests.get(url,headers=header)

****
最后贴上代码(需要自己改动下方可运行)

import requests
import re

def getHTMLText(url):
   
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/226474
推荐阅读
相关标签
  

闽ICP备14008679号