1.Heritrix.md

Heritrix

Web Administrative Console：一个基于web的控制台。

CrawlOrder一个crawl任务的配置。它是一个基于XML的对象，Heritrix根据CrawlOrder中的配置，选择合适的模块来组装这次抓取任务的程序。其中，同时它还包括了其他的一些重要的配置信息，例如抓取任务的seeds文件，进行抓取的url的范围等。

CrawlController：抓取的核心程序，它读取CrawlOrder来配置内部的模块和参数，同时负责初始化所有的子模块；Web Console也是和它做交互来控制爬虫。

Frontier：它其实就是一个调度器，它内部有一个url队列，保存着需要去抓取的url。同时，从网页中提取到的 url也会送给Frontier，所以，Frontier还有一个功能，对提取后的url进行去重。最后，Froniter进行调度，决定哪个url将被抓取，然后将这个url放入ToeThreads中；

ToeThreads：这组线程是真正的工作线程，它们完成url的抓取以及一系列的后续工作，如图2-1所示，主要包括：

（1）Pre-fetch Processing: 在抓取前的一些处理；

（2）Fetch Processing: 抓取url对应的网页；

（3）Extractor Processing: 抽取网页中的url，分析网页的信息。

（4）Write/Index Processing: 将网页保存下来，或者写入某个搜索引擎；

（5）Post Processing: 后处理；

每一个从Frontier中调度出来的url都需要经历这些步骤。所以，在爬虫的运行过程中，Frontier和这些Processing Chain构成了一个环，Frontier将需要处理的url放入Processor Chain中，从Processor Chain中提取出的新的url再被放入Frontier中。

1.Heritrix.md