赞
踩
一、创建框架
创建框架:
scrapy startproject projectname(项目名称)
cd projectname
scrapy gendspider spidername(爬虫文件名) www.baidu.com(爬取网址的域名)
二、创建项目文件的作用
1、items.py定义持久化的字段
2、middlews.py中间件
3、pipelines.py持久化:数据库
4、settings…py配置文件
5、scrapy.cfg配置文件:项目部署
三、交互
1、进入items文件中
2、进入创建的爬虫文件中并写解析过程
四、将数据写入mongodb中
1、进入pipelines.py文件中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。