W3Cschool
恭喜您成為首批注冊(cè)用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
要使蜘蛛正常工作,請(qǐng)轉(zhuǎn)到項(xiàng)目的頂級(jí)目錄并運(yùn)行:
scrapy crawl quotes
此命令運(yùn)行名為的spider ?quotes
? 我們剛剛添加的,這將發(fā)送一些 ?quotes.toscrape.com
? 領(lǐng)域。您將得到類似于以下內(nèi)容的輸出:
... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...
現(xiàn)在,檢查當(dāng)前目錄中的文件。您應(yīng)該注意到已經(jīng)創(chuàng)建了兩個(gè)新文件: quotes-1.html 和 引用-2.HTML, 將各個(gè)URL的內(nèi)容作為 ?parse
? 方法指示。
注解
如果您想知道為什么我們還沒(méi)有解析HTML,請(qǐng)稍等,我們很快就會(huì)討論這個(gè)問(wèn)題。
Scrapy安排了 ?scrapy.Request
? 返回的對(duì)象 ?start_requests
? 蜘蛛的方法。在接收到每個(gè)響應(yīng)時(shí),它實(shí)例化 ?Response
? 對(duì)象并調(diào)用與請(qǐng)求關(guān)聯(lián)的回調(diào)方法(在本例中,為 ?parse
? 方法)將響應(yīng)作為參數(shù)傳遞。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號(hào)-3|閩公網(wǎng)安備35020302033924號(hào)
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號(hào)
聯(lián)系方式:
更多建議: