当前位置:   article > 正文

python微博爬取(仅供学习,其实也没啥学的....),输入检索词,保存为csv格式。_python爬取微博关键词时先获取url再获取博文内容

python爬取微博关键词时先获取url再获取博文内容

        本示例记录一下python爬取微博遇到的坑以及学到的东西。首先不得不承认pyquery在提取信息方便还是相当便捷的,尤其是本次提取文本信息时,相当给力。可能主要还是对各种解析库不熟练吧,遇到一个说一个好。唉.....

      遇到的第一个问题是url构造的问题,微博构造url还是比较简单的,在爬取搜索关键词后的信息时其url大致为

https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D%25E4%25B8%258A%25E6%25B5%25B7&page_type=searchall&page=4

中间被变成URL编码的字符串为‘=1&q=关键词’。按道理来说也没有什么难度,但是刚开始我自作聪明,把这些都直接用字符串写了出来,关键词也用汉字写了出来,当请求时就会发现,得到的就不是自己想要的内容。因此:第一个坑就是要将构造的url的这一部分内容自己转码成URL编码格式,其大致方法为:

import    urllib.parse

S = 字符串

urllib.parse(S)

即可将S字符串的内容转换成URL编码格式。         

第二个问题,哦 ...... 第

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/57141
推荐阅读
相关标签
  

闽ICP备14008679号