Problem z XmlReader

0

Posiadam XML (dokładniej XHTML) wygenerowany z HTML. Próbuję go sparsować za pomocą XmlReader, ale wywala mi wyjątek System.Xml.XmlException: „Odwołanie do niezadeklarowanej jednostki 'raquo'. wiersz 158, pozycja 133.”. O co chodzi? Fragment XML do którego odnosi się wyjątek:
<a onclick="gbar.logger.il(1,{t:66});" href="https://www.google.pl/intl/pl/about/products?tab=wh" class="gbmt">Jeszcze wi&#281;cej &raquo;</a>

0

Masz znaki specjalne, których XML nie cierpi. You can only use &lt; and &amp; in XML, a ty masz &raquo;

0

W takim razie co zrobić aby mój XML z HTML był poprawny

0

Musisz znaleźć reprezentacje liczbową do &raquo;, z którą XML sobie poradzi

0

Tyle że mój program ma być przygotowany na każdy przypadek. Nie wiem jaki jest mój XML, ale program ma być w stanie wyciągnąć z niego pewne informacje jeśli istnieją. Da się coś zrobić aby parser pomijał mi te znaki specjalne?

1

Masz poprawnie ustawione DTD w twoim pliku XHTML? Definicja DTD zawiera te wszystkie encje.

0

Sorry że taki niedoedukowany jestem, ale pierwszy raz z XMLami pracuję. Co to DTD?

1

@Kamil B:

Posiadam XML (dokładniej XHTML) wygenerowany z HTML.

@Kamil B:

Tyle że mój program ma być przygotowany na każdy przypadek.

Myślę, a nawet jestem przekonany, że to ślepa uliczka.
O ile XML jest ścisłym standardem, ale HTML to bajzel, w tym przypadku jest zasada, że miliony much mają rację, akceptowane są błędy itd. Jak się jakoś uporasz ze znakami specjalnymi, wleziesz na następne brązowe placki.

Moze parsować HTML np HtmlAgilityPack, to parser głęboko przygotowany do życia z błędami

1 użytkowników online, w tym zalogowanych: 0, gości: 1