Parsowanie HTMLa - czy dobrze to robię

Cześć. Zastanawiam się, czy dobrze wykonuje parsowanie HTMLa na tekst.
1.Ustawiam odpowiednie opcje cURL'a aby zrobić request do serwera o ową stronę. Mamy w zmiennej stronę. Można do tego także użyć metody get_contents, ale podobno cURL jest szybszy (tak przeczytałem).
2.Tworzę nowy obiekt klasy DOMdocument, ustawiam odpowiednie kodowanie(mb_convert_encoding) dla strony z $strona = curl_exec() i ładuję stronę przez loadHTML($strona_z_cURLa).
3.Tworzę nowy obiekt DOMXPath do którego do konstruktora wysyłam załadowany dokument z wcześniejszego podpunktu.
4.Jeśli trzeba wywołuje odpowiednie metody z obiektu DOMXpath, aby wybrać dany selektor z HTMLa.
5.Zwracam dokument w postaci tablicy.

A czemu chcesz parsować html? Ta strona nie udostępnia jakiegoś API lub RSS?

@TomRiddle: Celem ćwiczeń i lepszego poznania języka. Chcę zrobić Swój parser, tak aby użytkownik mógł wpisać URL, selektor i nazwę klasy albo id i dany fragment z danej strony zostanie zwrócony.

Po pierwsze to nie chcesz napisać swojego, tylko skorzystać z DOMDocument. Po drugie, próbowałeś to włączyć? Działa? Jeśli działa to jesteś w domu.

@TomRiddle: Działa, wyszukuje i parsuje odpowiednią treść.

Liczba odpowiedzi na stronę

Parsowanie HTMLa - czy dobrze to robię

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami