Python wyłuskiwanie danych

Witam,
chcę stworzyć skrypt wyciągający dane ze strony http://dom.gratka.pl/mieszkania-sprzedam/lista/,,warszawa,lok.html.
Udało mi się pobrać wszystkie URLe. Niestety nie mogę sobie poradzić z wyciągnięciem danych dla każdego ogłoszenia osobno gdzie kilka pozycji ma taką samą nazwę klasy.

Możesz skorzystać z bilbiotek: requests, BeautifulSoup.

Ew. Scrapy, ale jeśli to nie jest jakoś specjalnie skomplikowane to użyj bibliotek podanych przez @anonimowy

anonimowy napisał(a):

Możesz skorzystać z bilbiotek: requests, BeautifulSoup.

Wszystko zależy od zabezpieczeń strony. Piękna zupka zawsze tak, ale do komunikacji requests (plus definicja nagłówków http) nie zawsze starcza, czasami lepiej skorzystać z syntetycznej przeglądarki, jak mechanize albo selenium. Ale wcześniej to tak naprawdę upewniamy się czy trzeba programować czy też może wystarczy skorzystać z import.io :)

@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.

anonimowy napisał(a):

@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.

Aha, no spoko. Nie chciało mi się sprawdzać, pomyślałem po prostu że warto podać też alternatywy.

@doktorko osobiście nie spotkałem się jeszcze żeby requests nie wystarczył a sporo go wykorzystuje.

Masz rację, ale ja spotkałem się przynajmniej raz. Scrapping-obfuscation staje się coraz częstsze. A jakie stronki ściągałeś ? Były takie z contentem uzupełnianym w dużej mierze przez głęboko zagnieżdzony JavaScript? Albo wybredne na header spoofing + detekcja zachowań automatycznych ? Trochę przy tym posiedziałem i coraz bardziej stałem się zwolennikiem import.io zamiast programowania, mam nadzieje ze ta stronka osiągnie doskonałość. :)

Liczba odpowiedzi na stronę

Python wyłuskiwanie danych

anonimowy napisał(a):

anonimowy napisał(a):

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami