Witam,
chcę stworzyć skrypt wyciągający dane ze strony http://dom.gratka.pl/mieszkania-sprzedam/lista/,,warszawa,lok.html.
Udało mi się pobrać wszystkie URLe. Niestety nie mogę sobie poradzić z wyciągnięciem danych dla każdego ogłoszenia osobno gdzie kilka pozycji ma taką samą nazwę klasy.
Możesz skorzystać z bilbiotek: requests, BeautifulSoup.
Ew. Scrapy, ale jeśli to nie jest jakoś specjalnie skomplikowane to użyj bibliotek podanych przez @anonimowy
anonimowy napisał(a):
Możesz skorzystać z bilbiotek: requests, BeautifulSoup.
Wszystko zależy od zabezpieczeń strony. Piękna zupka zawsze tak, ale do komunikacji requests (plus definicja nagłówków http) nie zawsze starcza, czasami lepiej skorzystać z syntetycznej przeglądarki, jak mechanize albo selenium. Ale wcześniej to tak naprawdę upewniamy się czy trzeba programować czy też może wystarczy skorzystać z import.io :)
@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.
anonimowy napisał(a):
@doktorko
Ale przecież napisał o jaką strone mu chodzi i tutaj requests wystarczy.
Aha, no spoko. Nie chciało mi się sprawdzać, pomyślałem po prostu że warto podać też alternatywy.
@doktorko osobiście nie spotkałem się jeszcze żeby requests nie wystarczył a sporo go wykorzystuje.
Masz rację, ale ja spotkałem się przynajmniej raz. Scrapping-obfuscation staje się coraz częstsze. A jakie stronki ściągałeś ? Były takie z contentem uzupełnianym w dużej mierze przez głęboko zagnieżdzony JavaScript? Albo wybredne na header spoofing + detekcja zachowań automatycznych ? Trochę przy tym posiedziałem i coraz bardziej stałem się zwolennikiem import.io zamiast programowania, mam nadzieje ze ta stronka osiągnie doskonałość. :)