Parsowanie HTMLa - czy dobrze to robię

0

Cześć. Zastanawiam się, czy dobrze wykonuje parsowanie HTMLa na tekst.
1.Ustawiam odpowiednie opcje cURL'a aby zrobić request do serwera o ową stronę. Mamy w zmiennej stronę. Można do tego także użyć metody get_contents, ale podobno cURL jest szybszy (tak przeczytałem).
2.Tworzę nowy obiekt klasy DOMdocument, ustawiam odpowiednie kodowanie(mb_convert_encoding) dla strony z $strona = curl_exec() i ładuję stronę przez loadHTML($strona_z_cURLa).
3.Tworzę nowy obiekt DOMXPath do którego do konstruktora wysyłam załadowany dokument z wcześniejszego podpunktu.
4.Jeśli trzeba wywołuje odpowiednie metody z obiektu DOMXpath, aby wybrać dany selektor z HTMLa.
5.Zwracam dokument w postaci tablicy.

0

A czemu chcesz parsować html? Ta strona nie udostępnia jakiegoś API lub RSS?

0

@TomRiddle: Celem ćwiczeń i lepszego poznania języka. Chcę zrobić Swój parser, tak aby użytkownik mógł wpisać URL, selektor i nazwę klasy albo id i dany fragment z danej strony zostanie zwrócony.

0

Po pierwsze to nie chcesz napisać swojego, tylko skorzystać z DOMDocument. Po drugie, próbowałeś to włączyć? Działa? Jeśli działa to jesteś w domu.

0

@TomRiddle: Działa, wyszukuje i parsuje odpowiednią treść.

1 użytkowników online, w tym zalogowanych: 0, gości: 1