赞
踩
目标
#2020.5.22
#author:pmy
#目标:爬取最爱的绵羊的微博,包含时间,文本内容,点赞数,评论数与转发数
#在更换博主时主要在于修改headers中的referer和参数中的containerid
分析
首先要简单讲一下Ajax。它是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。
它具体体现在:
在刷微博时,我们能明显能发现,当一个页面划完,就能出现新的画面,新的内容,而此时,网页并没有刷新。
Ajax在网页中的请求类型是xhr,在其中便可以找到每次往下划获得的信息。它响应的内容是JSON格式,很方便操作,可以说是十分方便了。
具体的在我们要抓取的网页中怎么看xhr,怎么获得JSON响应呢。下面我们就来看。
我们这里爬取的是我最近最喜欢的b站up主绵羊料理的新浪微博,最喜欢大姨了嘿嘿。
我们从微博手机端网页版进入,要爬取的网页地址为:https://m.weibo.cn/profile/1733152694
往下划,查看网络:

发现没有之前那种适合我们爬取的html文档,那么将筛选器选择XHR呢。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。