Web Administrative Console:一个基于web的控制台。
CrawlOrder一个crawl任务的配置。它是一个基于XML的对象,Heritrix根据CrawlOrder中的配置,选择合适的模块来组装这次抓取任务的程序。其中,同时它还包括了其他的一些重要的配置信息,例如抓取任务的seeds文件,进行抓取的url的范围等。
CrawlController:抓取的核心程序,它读取CrawlOrder来配置内部的模块和参数,同时负责初始化所有的子模块;Web Console也是和它做交互来控制爬虫。
Frontier:它其实就是一个调度器,它内部有一个url队列,保存着需要去抓取的url。同时,从网页中提取到的 url也会送给Frontier,所以,Frontier还有一个功能,对提取后的url进行去重。最后,Froniter进行调度,决定哪个url将被 抓取,然后将这个url放入ToeThreads中;
ToeThreads:这组线程是真正的工作线程,它们完成url的抓取以及一系列的后续工作,如图2-1所示,主要包括:
(1)Pre-fetch Processing: 在抓取前的一些处理;
(2)Fetch Processing: 抓取url对应的网页;
(3)Extractor Processing: 抽取网页中的url,分析网页的信息。
(4)Write/Index Processing: 将网页保存下来,或者写入某个搜索引擎;
(5)Post Processing: 后处理;
每一个从Frontier中调度出来的url都需要经历这些步骤。所以,在爬虫的运行过程中,Frontier和这些Processing Chain构成了一个环,Frontier将需要处理的url放入Processor Chain中,从Processor Chain中提取出的新的url再被放入Frontier中。