Scrapy学习文档

2024-02-06 来源：个人技术集锦

Scrapy学习文档

环境配置

1. 依赖库（熟悉各库的用法）

（1） lxml （2） twisted

（3） pywin32（非必须，为了兼容Windows）（4） OpenSSL

（5） zope.interface

2. 安装scrapy-0.22.2（更新）

创建工程

在工作目录创建项目proj_scrapy 命令：scrapy startproject proj_scrapy

工程结构

1. pipelines的典型应用

（1）清理HTML数据（2）验证抓取的数据（3）查重

（4）将抓取的数据保存到数据库中

核心部分

爬虫核心部分：爬虫代码区。

这部分通过类和方法的方式进行网页抓取、分析与数据抽取。 1. 类：继承了scrapy.Spider类，并且定义了父类的三个属性：

（1） name（爬虫识别的名字，具有唯一性），（2） allowed_urls（域名），（3） start_urls（url列表） 2. 方法的实现：

执行scrapy crawl name时，自动完成url的下载，并生成url的response对象，这个response对象作为方法的入参；

方法主要完成对response对象的解析与数据抽取；

可以将抽取的数据与Items.py（保存抓取的数据的容器）中定义的类进行映射，从而达到保存数据的目的。

具体操作

操作环境：

工程目录下操作简介：执行网页抓取 scrapy crawl name

执行网页抓取，并将抓取到的数据保存在文件中 scrapy crawl name –o 名称.json 其他命令：

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文