当前位置:   article > 正文

2024年Scrapy爬取二手房信息+可视化数据分析_scrapy 安居客 css_爬取我爱我家网页

爬取我爱我家网页

博主并没有采用分区域进行爬取,博主是直接进行全部爬取,然后循环下一页完成的。步骤很简单,如下:

  1. 先把每一页的所有二手住房详细链接爬取到
  2. 请求每一个爬取到的详细链接,解析住房信息
  3. 完成所有解析后,请求下一页的链接
  4. 返回步骤一循环,直到返回内容为空

Scrapy代码实现

数据结构定义

Scrapy中的元数据field其实是继承了Python中的字典数据类型,使用起来很方便,博主直接定义了几个住房的信息,如下代码所示。当然还有高级的用法,配合itemloader加入processor,这里只使用简单的定义即可。

class AnjukeItem(scrapy.Item):  
    # define the fields for your item here like:  
    # name = scrapy.Field()  
    price = scrapy.Field()  
    mode = scrapy.Field()  
    area = scrapy.Field()  
    floor = scrapy.Field()  
    age = scrapy.Field()  
    location = scrapy.Field()  
    district = scrapy.Field()  
    pass
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

爬虫解析

  • 定义了一个继承Scrapy自带的爬虫类Spider
  • 然后一个必不可少的东西是name,它贯穿了整个Scrapy的始终,后面会看到它的作用。
  • start_urls是初始请求的url的列表,也可以有多个初始url,这里只有一个。
  • 由于ScrapySpider类中默认使用了Request请求,因此这里选择不覆盖Request,使用默认请求,且请求中调用parse回调函数。
  • 解析部分用Scrapy的高级selector选择器的xpath进行解析。

parse函数请求中有两个yield,代表生成器。

  • 第一个yield返回每一页的下一页链接next_pageurl。
  • 第二个yield返回每一页所有的住房详细链接,并再次Request请求跟进,然后调用下一个回调函数parse_detail

请求的过程中如果速度过快,会要求输入验证码,这里放慢了请求速度,暂不处理验证部分(后续慢慢介绍)。

class AnjukeSpider(scrapy.Spider):  
    name = 'anjuke'  
    # custom\_settings = {  
    #     'REDIRECT\_ENABLED': False  
    # }  
    start_urls = ['https://beijing.anjuke.com/sale/']  
    def parse(self, response):  
        # 验证码处理部分  
        pass  
        # next page link  
        next_url = response.xpath(  
            '//\*[@id="content"]/div[4]/div[7]/a[7]/@href').extract()[0]  
        print('\*\*\*\*\*\*\*\*\*' + str(next_url) + '\*\*\*\*\*\*\*\*\*\*')  
        if next\_url:  
            yield scrapy.Request(url=next_url,  
                                 callback=self.parse)  
        # 爬取每一页的所有房屋链接  
        num = len(response.xpath(  
            '//\*[@id="houselist-mod-new"]/li').extract())  
        for i in range(1, num + 1):  
            url = response.xpath(  
                '//\*[@id="houselist-mod-new"]/li[{}]/div[2]/div[1]/a/@href'  
                    .format(i)).extract()[0]  
            yield scrapy.Request(url, callback=self.parse_detail)  

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25

parse_detail回调函数中使用itemloader解析items住房信息,并返回载有信息的item

    def parse\_detail(self, response):  
        houseinfo = response.xpath('//\*[@class="houseInfo-wrap"]')  
        if houseinfo:  
            l = ItemLoader(AnjukeItem(), houseinfo)  
            l.add_xpath('mode', '//div/div[2]/dl[1]/dd/text()')  
            l.add_xpath('area', '//div/div[2]/dl[2]/dd/text()')  
            l.add_xpath('floor', '//div/div[2]/dl[4]/dd/text()')  
            l.add_xpath('age', '//div/div[1]/dl[3]/dd/text()')  
            l.add_xpath('price', '//div/div[3]/dl[2]/dd/text()')  
            l.add_xpath('location', '//div/div[1]/dl[1]/dd/a/text()')  
            l.add_xpath('district', '//div/div[1]/dl[2]/dd/p/a[1]/text()')  
            yield l.load_item()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

数据清洗

由于爬取后的items数据很乱,有各种\n,\t等符号,因此在pipelines中进行简单的清理工作,使用正则表达式实现,代码如下:

import re  
def list2str(value):  
    new = ''.join(value).strip()  
    return new  
class AnjukePipeline(object):  
    def process\_item(self, item, spider):  
        area = item['area']  
        price = item['price']  
        loc = item['location']  
        district = item['district']  
        mode = item['mode']  
        age = item['age']  
        floor = item['floor']  
        modes = list2str(mode)  
        item['area'] = int(re.findall(r'\d+', list2str(area))[0])  
        item['age'] = int(re.findall(r'\d+', list2str(age))[0])  
        item['floor'] = list2str(floor)  
        item['location'] = list2str(loc)  
        item['district'] = list2str(district)  
        item['price'] = int(re.findall(r'\d+', list2str(price))[0])  
        item['mode'] = modes.replace('\t', '').replace('\n', '')  
        return item
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

别忘记在setting里面设置pipeline参数。

ITEM_PIPELINES = {  
   'anjuke.pipelines.AnjukePipeline': 300,  
}
  • 1
  • 2
  • 3

如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/760900
推荐阅读
相关标签
  

闽ICP备14008679号