HTML Agility Pack

Odpowiedz Nowy wątek
2011-08-10 10:37
Generalle
0

Trafiłem ostatnio na coś takiego jak HTML Agility Pack - http://htmlagilitypack.codeplex.com/. Do tej pory parsowałem strony HTML normalnie je pobierając, używając streambuffera i analizując kod. Ta biblioteka pozwala chyba dużo szybciej analizować pliki HTML.

Czy można z niej korzystać we wszystkich .NET-owych aplikacjach? Jak wygląda jej wydajność, można spokojnie stosować na słabszych serwerach?

Pozostało 580 znaków

2011-08-10 15:08
0

Wg mnie już z pierwszego zdania wynika że dokument musi być poprawnym xml'em. A sepyfikacja html 4.01 wcale nie wymaga aby dokument html był poprawnym xml. Chyba że ta biblkoteczka sobie z tym radzi i "poprawia"/"naprawia" taki html. Generalnie xpath raczej radzi sobie całkiem dobrze. Zależy co chcesz robić, jak analizować te dokumenty?

Pozostało 580 znaków

2011-08-11 10:57
Generalle
0

Dzięki za odpowiedź.
Chodzi mi o wyciąganie z HTMLa konkretnych informacji - np. tekstu z diva z odpowiednim ID albo linków. Da radę?

Pozostało 580 znaków

2011-08-11 11:27
gosc_z_pytaniem
0

Da radę. Strona nie musi się walidować. Nie musisz używać Xpath, ale to na pewno ułatwi i przyspieszy pracę. Jeżeli kiedyś coś zmieni się na stronie to łatwiej będzie to zmienić jeżeli zmienisz tylko zapytanie XPath. Bardzo dobra biblioteka. Polecam.

Jeżeli strona się nie waliduje to biblioteka ta posiada funkcjonalność, która pokaże Ci gdzie są błędy.

Co do tego, że naprawia to jest taka możliwość. Można załadowany html przekształcić do XML i dopiero parsować. Ja raczej tej metody nie wykorzystywałem. Lepiej parsować oryginalny kod skoro biblioteka daje taką funkcjonalność.

Pozostało 580 znaków

Odpowiedz
Liczba odpowiedzi na stronę

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0