Python wyłuskiwanie danych

0

Witam,
chcę stworzyć skrypt wyciągający dane ze strony http://dom.gratka.pl/mieszkania-sprzedam/lista/,,warszawa,lok.html.
Udało mi się pobrać wszystkie URLe. Niestety nie mogę sobie poradzić z wyciągnięciem danych dla każdego ogłoszenia osobno gdzie kilka pozycji ma taką samą nazwę klasy.

0

Możesz skorzystać z bilbiotek: requests, BeautifulSoup.

0

Ew. Scrapy, ale jeśli to nie jest jakoś specjalnie skomplikowane to użyj bibliotek podanych przez @anonimowy

0
anonimowy napisał(a):

Możesz skorzystać z bilbiotek: requests, BeautifulSoup.

Wszystko zależy od zabezpieczeń strony. Piękna zupka zawsze tak, ale do komunikacji requests (plus definicja nagłówków http) nie zawsze starcza, czasami lepiej skorzystać z syntetycznej przeglądarki, jak mechanize albo selenium. Ale wcześniej to tak naprawdę upewniamy się czy trzeba programować czy też może wystarczy skorzystać z import.io :)

0

@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.

0
anonimowy napisał(a):

@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.

Aha, no spoko. Nie chciało mi się sprawdzać, pomyślałem po prostu że warto podać też alternatywy.

0

@doktorko osobiście nie spotkałem się jeszcze żeby requests nie wystarczył a sporo go wykorzystuje.

0

Masz rację, ale ja spotkałem się przynajmniej raz. Scrapping-obfuscation staje się coraz częstsze. A jakie stronki ściągałeś ? Były takie z contentem uzupełnianym w dużej mierze przez głęboko zagnieżdzony JavaScript? Albo wybredne na header spoofing + detekcja zachowań automatycznych ? Trochę przy tym posiedziałem i coraz bardziej stałem się zwolennikiem import.io zamiast programowania, mam nadzieje ze ta stronka osiągnie doskonałość. :)

1 użytkowników online, w tym zalogowanych: 0, gości: 1