环境配置
1. 依赖库(熟悉各库的用法)
(1) lxml (2) twisted
(3) pywin32(非必须,为了兼容Windows) (4) OpenSSL
(5) zope.interface
2. 安装scrapy-0.22.2(更新)
创建工程
在工作目录创建项目proj_scrapy 命令:scrapy startproject proj_scrapy
工程结构
1. pipelines的典型应用
(1) 清理HTML数据 (2) 验证抓取的数据 (3) 查重
(4) 将抓取的数据保存到数据库中
核心部分
爬虫核心部分:爬虫代码区。
这部分通过类和方法的方式进行网页抓取、分析与数据抽取。 1. 类:继承了scrapy.Spider类,并且定义了父类的三个属性:
(1) name(爬虫识别的名字,具有唯一性), (2) allowed_urls(域名), (3) start_urls(url列表) 2. 方法的实现:
执行scrapy crawl name时,自动完成url的下载,并生成url的response对象,这个response对象作为方法的入参;
方法主要完成对response对象的解析与数据抽取;
可以将抽取的数据与Items.py(保存抓取的数据的容器)中定义的类进行映射,从而达到保存数据的目的。
具体操作
操作环境:
工程目录下 操作简介: 执行网页抓取 scrapy crawl name
执行网页抓取,并将抓取到的数据保存在文件中 scrapy crawl name –o 名称.json 其他命令:
因篇幅问题不能全部显示,请点此查看更多更全内容