Witam,
dzięki pomocy Shaloma udało mi się w końcu zaimportować potrzebne moduły.
Mam na celu stworzyć program, który automatycznie wyciągnie mi wybrane dane ze strony gratka.pl.
Udało mi się stworzyć skrypt, który pobiera kod HTML podanej w skrypcie strony, wyciąga z niego wszystkie URLe i zapisuje je w podanym pliku:
from bs4 import BeautifulSoup
import urllib2
import re
redditFile = urllib2.urlopen("http://www.gratka.pl/ogloszenia/nieruchomosci/dzialki/lista.html?typ=1")
redditHtml = redditFile.read()
redditFile.close()
path = r"C:\Users\Magda\Desktop\zrodlo.txt"
file = open(path, "w")
soup = BeautifulSoup(redditHtml)
for link in soup.find_all('a'):
print(link.get("href"))
file.write(str(link) + "\n")
file.close()
Niestety nie wiem jak wyciągnać z kodu dane, które mnie interesują - m.in. powierzchnia działki, cena, ulica itp.
(poniżej fragment kodu)
</h2>
<div class="infoLista">
<p class="infoDane">
<span><b>2000</b> m<sup>2</sup></span> <span><b>600</b> PLN/m<sup>2</sup></span> </p>
<p class="infoZajawka">Przepiękna działka w prestiżowej części Podkowy Leśnej.
Starodrzew na działce. Na działce znajduje się drewniany domek 80m2
Wszystkie media.
Zachęcam do oglądania ul. Sienkiewicza 6
Podkowa Leśna
Ogłoszenie bezpośrednie!</p>
<p class="infoLokalizacja">
<b>Podkowa Leśna</b>, ul. Sienkiewicza </p>
<p class="infoDodatkowe">
<span>Dodano: 30-10-2013</span>
<span>Zaktualizowano: 22-08-2014</span> </p>
</div>
<p class="ogloszenieCena"><b>1 200 000</b> PLN</p>
<span data-klucz="dom-ogloszenie-35047246" title="Dodaj do ulubionych ogłoszeń."
class="schowekDodaj">
Dodaj do ulubionych
</span>
Czy ktoś ma pomysł jak dostać się do tych danych?
Pozdrawiam.
dodanie znacznika <code class="html"> - furious programming