Scrapy :: 4programmers.net

Scrapy

Witam.
Mam problem.
Jak zrobić, aby pobrać dane po przejściu na kolejne strony?
Pobiera jedynie z pierwszej strony.
Wklejam, mój kod:
https://pastebin.pl/view/8365a133

Pozdrawiam.

Czemu yieldujesz dwie różne rzeczy w jednej metodzie?
Druga rzecz, to jakim fragmentem kodu wchodzisz na stronę?
A trzecie rzecz, tym ostatnim yieldem uzyskujesz adres na który chcesz przejść? Jeśli tak, to próbujesz wejść na to, tak jak na drugą stronę?

Zmieniłem, aby yield sie nie powtarzało:
https://pastebin.pl/view/8877896a
Niestety dalej ten sam problem.
Na stronę wchodzę wpisując adres w start_url.
Tak, yieldem przechodze na kolejne strony.
Wchodzi mi na te strony, ale nie pobiera danych: https://pastebin.pl/view/4f6663dc

Spróbuj tego sposobu:

import scrapy

class PageSpider(scrapy.Spider):
    name = "page"
    start_urls = ['http://blog.theodo.fr/']

    def parse(self, response):
        for article_url in response.css('.entry-title a ::attr("href")').extract():
            yield response.follow(article_url, callback=self.parse_article)

    def parse_article(self, response):
        content = response.xpath(".//div[@class='entry-content']/descendant::text()").extract()
        yield {'article': ''.join(content)}

Źródło: https://blog.theodo.fr/2018/02/scrape-websites-5-minutes-scrapy/

Liczba odpowiedzi na stronę

Scrapy

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami