知识库 : 开源爬虫框架Scrapy核心流程解析

1. Scrapy简介

Scrapy是使用Python语言编写的开源爬虫框架，可对互联网中的网页内容进行抓取，并从中提取出结构化数据，提取到的数据可用于资料收集、舆情分析、数据挖掘等多个领域。

Scrapy基于由事件驱动的网络引擎框架Twisted编写，可以对网站页面进行大量非阻塞的异步请求，能够对目标网站按照网站结构的层级次序逐级向下采集，并可以在已采集到的页面中提取其他符合要求的目标网页地址资源，从而实现从单个或多个入口进入，对目标网站进行全面扫描并获取所需的数据。

目前我们已经基于Scrapy编写了65个不同种类的爬虫，所采集的内容涵盖新闻、微博、博客、论坛、报告、会议、宏观数据指标、上市公司信息、汇率、电商、招聘职位等多种数据。

在Scrapy中定义了多种不同类型的组件，按照功能和职责的不同可将组件分为以下几类：

Scrapy引擎负责控制数据流在整个系统的各个组件间的流动过程，并在特定动作发生时触发相应事件。

调度器负责调度爬虫的抓取过程，接受Scrapy引擎传递过来的Request对象，并将该对象加入队列中，下次Scrapy引擎发出请求时再将对象传递给引擎。

下载器负责对目标页面发出请求并获取页面反馈的数据，之后传递给Scrapy引擎，最终传递给爬虫进行数据提取。

爬虫是Scrapy的用户自行编写的一段数据提取程序，针对下载器返回的数据结构进行分析（一般为HTML），并提取出其中的结构化数据，并可以指定其他需要跟进的URL和处理方法。

每个爬虫负责处理一个或多个特定的网站。

Item是爬虫针对网页数据做解析后返回的数据，需要在使用之前预先定义好Item的数据结构，爬虫的解析程序负责将提取到的数据填充到Item中，并将Item返回，传递给数据管道进行后续处理。

数据管道负责处理被爬虫提取出来的Item数据，可定义多个数据管道来做多种不同的处理操作，比如数据清理、验证、写入数据库、写入数据文件等等操作。Item可以在不同的数据管道中进行传递，可以设置每个数据管道的优先级，Item会按照优先级依次经过所有的数据管道。

上图展现了Scrapy内部各组件间数据流转的情况。参照上图，可将数据流转的整个过程梳理成如下步骤：

l Scrapy的官网地址：http://scrapy.org

l Scrapy在Github上的项目地址：https://github.com/scrapy/scrapy.git

l Scrapy的官方文档地址：http://doc.scrapy.org/