99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

scrapy 2.3 分布式爬行

2021-06-16 10:52 更新

Scrapy不提供任何以分布式(多服務(wù)器)方式運(yùn)行爬蟲(chóng)的內(nèi)置工具。但是,有一些分發(fā)爬行的方法,這取決于您計(jì)劃如何分發(fā)爬行。

如果您有許多蜘蛛,那么分配負(fù)載的最明顯的方法就是設(shè)置許多ScrapyD實(shí)例,并將蜘蛛運(yùn)行分布在這些實(shí)例中。

如果您想在多臺(tái)機(jī)器上運(yùn)行一個(gè)(大)蜘蛛,通常需要對(duì)URL進(jìn)行分區(qū),以便爬行并將它們發(fā)送到每個(gè)單獨(dú)的蜘蛛。下面是一個(gè)具體的例子:

首先,準(zhǔn)備要爬網(wǎng)的URL列表并將其放入單獨(dú)的文件/URL::

http://somedomain.com/urls-to-crawl/spider1/part1.list
http://somedomain.com/urls-to-crawl/spider1/part2.list
http://somedomain.com/urls-to-crawl/spider1/part3.list

然后在3個(gè)不同的ScrapyD服務(wù)器上啟動(dòng)一個(gè)蜘蛛運(yùn)行。蜘蛛會(huì)收到一個(gè)(蜘蛛)論點(diǎn) part 使用要爬網(wǎng)的分區(qū)的編號(hào)::

curl http://scrapy1.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=1
curl http://scrapy2.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=2
curl http://scrapy3.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=3
以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)