赞
踩
近来,刚开始学习爬虫,跟着教程尝试进行了淘宝网页 商品信息(商品名称和价格)的爬取,遇到了爬取时候无法获取商业页面html的情况(主要是因为淘宝需要用户登陆后才能够进行相关商品信息的检索),所以本篇主要讲解我借鉴别人的亲测可用的解决方法
参考博文:https://blog.csdn.net/Guanhai1617/article/details/104120581
先放上运行结果:
解决方法:通过将requests.get()方法中的属性headers设置成自己登陆淘宝后的header字段即可
如何获得自己的header字段??
下面是以Google浏览器为例的详细步骤:
(1)打开淘宝网https://www.taobao.com/ 后,进入登陆页面先进行登陆操作;
(2)登陆成功后,在商品检索框中输入你想要检索的商品名称(如:羽毛球。。)然后在任一页面空白处右键鼠标——>"检查”选项得到如下页面(见下图1),选择Network选项,找到以search?q开头的文件,右键
(3)选择copy,copy as cURL(bash)
图1
(4)在https://curl.trillworks.com/,将上一步复制的内容粘贴到curl command窗口
(5)复制右侧的headers内容,在程序中用以变量header保存,作为参数传给requests.get(url,headers=header)
最后贴上代码(需要自己改动下方可运行)
import requests
import re
def getHTMLText(url):
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。