HTML Agility Pack

0

Trafiłem ostatnio na coś takiego jak HTML Agility Pack - http://htmlagilitypack.codeplex.com/. Do tej pory parsowałem strony HTML normalnie je pobierając, używając streambuffera i analizując kod. Ta biblioteka pozwala chyba dużo szybciej analizować pliki HTML.

Czy można z niej korzystać we wszystkich .NET-owych aplikacjach? Jak wygląda jej wydajność, można spokojnie stosować na słabszych serwerach?

0

Wg mnie już z pierwszego zdania wynika że dokument musi być poprawnym xml'em. A sepyfikacja html 4.01 wcale nie wymaga aby dokument html był poprawnym xml. Chyba że ta biblkoteczka sobie z tym radzi i "poprawia"/"naprawia" taki html. Generalnie xpath raczej radzi sobie całkiem dobrze. Zależy co chcesz robić, jak analizować te dokumenty?

0

Dzięki za odpowiedź.
Chodzi mi o wyciąganie z HTMLa konkretnych informacji - np. tekstu z diva z odpowiednim ID albo linków. Da radę?

0

Da radę. Strona nie musi się walidować. Nie musisz używać Xpath, ale to na pewno ułatwi i przyspieszy pracę. Jeżeli kiedyś coś zmieni się na stronie to łatwiej będzie to zmienić jeżeli zmienisz tylko zapytanie XPath. Bardzo dobra biblioteka. Polecam.

Jeżeli strona się nie waliduje to biblioteka ta posiada funkcjonalność, która pokaże Ci gdzie są błędy.

Co do tego, że naprawia to jest taka możliwość. Można załadowany html przekształcić do XML i dopiero parsować. Ja raczej tej metody nie wykorzystywałem. Lepiej parsować oryginalny kod skoro biblioteka daje taką funkcjonalność.

1 użytkowników online, w tym zalogowanych: 0, gości: 1