Czego użyć gdy chcę wyciągnąć jakies informacje ze strony, która nie oferuje żadnego api? Chodzi o Androida dokładnie.
Ściągnąć źródło i sparsować? o_O
Rozumiem że ściągam i pisze parsowanie z wykorzystaniem SAX'a?
Czy muszę napisać obsługę całego drzewa? czy puścić i czekać aż trafi na wybrany element? bo chciałem drugą opcję i mi nie działa, pluje się do korzenia
Zależy co chcesz wyciągać. Możesz parsować html jako xml jak bardzo chcesz, ale ja rozumiem że chcesz wyciągnąć konkretne informacje więc może wyrażeniem regularnym?
HTML się nie da parsować parserem xml
Wyrażenia regularne czasem tak sobie radzą z takimi sprawami.
Dużo szybciej jest rozwiązać problem używając DOM.
Wyrażenia regularne odpadają bo trwa to zdecydowanie za długo, przeszukuje mi linijka po linijce różne patterny. Chce to zrobić teraz XPath'em ale za cholerę nie mogę tego ruszyć, wszystkie info w necie są do banalnych plików XML, nie ma nigdzie jak pracować z wielkiemi stronami gdzie aby się dostać do elementu trzeba przejść z 10 elementów. Wpisywanie na sztywno od /html/ do końca coś mi nie działa:/
nowyTyp napisał(a):
Chce to zrobić teraz XPath'em ale za cholerę nie mogę tego ruszyć, wszystkie info w necie są do banalnych plików XML, nie ma nigdzie jak pracować z wielkiemi stronami gdzie aby się dostać do elementu trzeba przejść z 10 elementów.
W Chrome klikasz prawym przyciskiem na elemencie i Zbadaj element, ponownie prawym na interesującym Cię węźle i Copy XPath.