parsowanie HTML do XML

0

Witam,
mam takie problem: chciałbym wczytywać dane ze strony HTML do pliku XML. Strona jest okreslona w pewien sposob, jest ich calkiem sporo, ale maja taką sama strukture. Zeby byc bardziej dokladnym - chodzi o rozkaldy jazdy dostepne na stronie przewoznika. chcialbym je miec w xmlu. Ktos moze pomoc, podrzucic jakis pomysł jak sie do tego zabrac?

pzdr
Mariusz

0

chcialbym je miec w xmlu
język HTML jest podzbiorem języka XML, co w praktyce oznacza, że mając dane w HTMLu masz je też w XMLu. Pobierz dokument HTML, wczytaj do jakiegoś parsera, czy czegoś tam (nie znam sie na Javie) i pracuj jak na xml-u.
O to chodziło?

0

Nie ma tak łatwo - HTML jest podzbiorem SGML, podzbiorem XML jest XHTML. I jeżeli masz dokument XHTML to teoretycznie możesz go potraktować jako zwykły dokument XML. W praktyce jednak jakość wielu dokumentów XHTML pozostawia wiele do życzenia i parser zatrzyma się nawet do kilkuset razy z błędem krytycznym.

Możesz zrobić to tak, jak mówi id02009, ale po drodze być może będziesz musiał potraktować kod jakimiś wyrażeniami regularnymi, aby z tego uzyskać kod we właściwej dla XML formie.

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0