您的当前位置:首页正文

Scrapy学习文档

2024-02-06 来源:个人技术集锦
Scrapy学习文档

环境配置

1. 依赖库(熟悉各库的用法)

(1) lxml (2) twisted

(3) pywin32(非必须,为了兼容Windows) (4) OpenSSL

(5) zope.interface

2. 安装scrapy-0.22.2(更新)

创建工程

在工作目录创建项目proj_scrapy 命令:scrapy startproject proj_scrapy

工程结构

1. pipelines的典型应用

(1) 清理HTML数据 (2) 验证抓取的数据 (3) 查重

(4) 将抓取的数据保存到数据库中

核心部分

爬虫核心部分:爬虫代码区。

这部分通过类和方法的方式进行网页抓取、分析与数据抽取。 1. 类:继承了scrapy.Spider类,并且定义了父类的三个属性:

(1) name(爬虫识别的名字,具有唯一性), (2) allowed_urls(域名), (3) start_urls(url列表) 2. 方法的实现:

执行scrapy crawl name时,自动完成url的下载,并生成url的response对象,这个response对象作为方法的入参;

方法主要完成对response对象的解析与数据抽取;

可以将抽取的数据与Items.py(保存抓取的数据的容器)中定义的类进行映射,从而达到保存数据的目的。

具体操作

操作环境:

工程目录下 操作简介: 执行网页抓取 scrapy crawl name

执行网页抓取,并将抓取到的数据保存在文件中 scrapy crawl name –o 名称.json 其他命令:

因篇幅问题不能全部显示,请点此查看更多更全内容