scrapy 2.3 數(shù)據(jù)抓取實例

2021-06-02 11:18 更新

既然您知道了如何從頁面中提取數(shù)據(jù)，那么讓我們看看如何從頁面中跟蹤鏈接。

第一件事是提取到我們要跟蹤的頁面的鏈接。檢查我們的頁面，我們可以看到有一個鏈接指向下一個帶有以下標(biāo)記的頁面：

<ul class="pager">
    <li class="next">
        <a href="/page/2/">Next <span aria-hidden="true">&rarr;</span></a>
    </li>
</ul>

我們可以嘗試在外殼中提?。?/p>

>>> response.css('li.next a').get()
'<a href="/page/2/">Next <span aria-hidden="true">→</span></a>'

這將獲取anchor元素，但我們需要該屬性 ?href? . 為此，Scrapy支持CSS擴展，允許您選擇屬性內(nèi)容，如下所示：

>>> response.css('li.next a::attr(href)').get()
'/page/2/'

還有一個 ?attrib? 可用屬性（請參見選擇元素屬性更多信息）：

>>> response.css('li.next a').attrib['href']
'/page/2/'

現(xiàn)在讓我們看看我們的spider被修改為遞歸地跟蹤下一頁的鏈接，從中提取數(shù)據(jù)：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

現(xiàn)在，在提取數(shù)據(jù)之后， ?parse()? 方法查找到下一頁的鏈接，并使用 ?urljoin()? 方法（因為鏈接可以是相對的），并生成對下一頁的新請求，將自身注冊為回調(diào)，以處理下一頁的數(shù)據(jù)提取，并保持爬行在所有頁中進行。

這里您看到的是scrapy的以下鏈接機制：當(dāng)您在回調(diào)方法中生成一個請求時，scrapy將計劃發(fā)送該請求，并注冊一個回調(diào)方法，以便在該請求完成時執(zhí)行。

使用它，您可以構(gòu)建復(fù)雜的爬蟲程序，這些爬蟲程序根據(jù)您定義的規(guī)則跟蹤鏈接，并根據(jù)所訪問的頁面提取不同類型的數(shù)據(jù)。

在我們的示例中，它創(chuàng)建了一種循環(huán)，跟蹤到下一頁的所有鏈接，直到找不到一個為止——這對于爬行博客、論壇和其他帶有分頁的站點很方便。

創(chuàng)建請求的快捷方式

作為創(chuàng)建請求對象的快捷方式，您可以使用 ?response.follow? ：：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

不像Scrapy.Request， ?response.follow? 直接支持相對URL-無需調(diào)用URLJOIN。注意 ?response.follow? 只返回一個請求實例；您仍然需要生成這個請求。

也可以將選擇器傳遞給 ?response.follow? 而不是字符串；此選擇器應(yīng)提取必要的屬性：

for href in response.css('ul.pager a::attr(href)'):
    yield response.follow(href, callback=self.parse)

為了 ?<a>? 元素有一個快捷方式： ?response.follow? 自動使用其href屬性。因此代碼可以進一步縮短：

for a in response.css('ul.pager a'):
    yield response.follow(a, callback=self.parse)

要從iterable創(chuàng)建多個請求，可以使用 ?response.follow_all? 取而代之的是：

anchors = response.css('ul.pager a')
yield from response.follow_all(anchors, callback=self.parse)

或者，進一步縮短：

yield from response.follow_all(css='ul.pager a', callback=self.parse)

99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

scrapy 2.3 數(shù)據(jù)抓取實例

創(chuàng)建請求的快捷方式

更多示例和模式

99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

scrapy 2.3 數(shù)據(jù)抓取實例

創(chuàng)建請求的快捷方式

更多示例和模式

推薦文章

推薦教程

推薦課程