99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

scrapy 2.3 避免被禁止

2021-06-16 10:57 更新

一些網(wǎng)站實(shí)施了某些措施,以防止僵尸爬行他們,不同程度的復(fù)雜度。繞開這些措施既困難又棘手,有時(shí)可能需要特殊的基礎(chǔ)設(shè)施。請(qǐng)考慮聯(lián)系 commercial support 如果有疑問。

以下是處理此類網(wǎng)站時(shí)要記住的一些提示:

  • 將你的用戶代理從瀏覽器中的一個(gè)著名的池中輪換出來(用google搜索以獲得一個(gè)列表)。
  • 禁用cookies(請(qǐng)參見 ?COOKIES_ENABLED? )因?yàn)橛行┚W(wǎng)站可能會(huì)使用cookie來發(fā)現(xiàn)機(jī)器人行為
  • 使用下載延遲(2或更高)。見 ?DOWNLOAD_DELAY? 設(shè)置。
  • 如果可能,使用 Google cache 獲取頁(yè)面,而不是直接訪問站點(diǎn)
  • 使用一個(gè)旋轉(zhuǎn)的IP池。例如,自由 Tor project 或者像這樣的付費(fèi)服務(wù) ProxyMesh . 開源替代方案是 scrapoxy ,可以將自己的代理附加到的超級(jí)代理。
  • 使用一個(gè)在內(nèi)部繞過BAN的高度分布式下載程序,這樣您就可以專注于解析干凈的頁(yè)面。這種下載器的一個(gè)例子是 Crawlera

如果您仍然無法阻止您的bot被禁止,請(qǐng)考慮聯(lián)系 commercial support .

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)