Cześć. Zastanawiam się, czy dobrze wykonuje parsowanie HTMLa na tekst.
1.Ustawiam odpowiednie opcje cURL'a aby zrobić request do serwera o ową stronę. Mamy w zmiennej stronę. Można do tego także użyć metody get_contents, ale podobno cURL jest szybszy (tak przeczytałem).
2.Tworzę nowy obiekt klasy DOMdocument, ustawiam odpowiednie kodowanie(mb_convert_encoding) dla strony z $strona = curl_exec() i ładuję stronę przez loadHTML($strona_z_cURLa).
3.Tworzę nowy obiekt DOMXPath do którego do konstruktora wysyłam załadowany dokument z wcześniejszego podpunktu.
4.Jeśli trzeba wywołuje odpowiednie metody z obiektu DOMXpath, aby wybrać dany selektor z HTMLa.
5.Zwracam dokument w postaci tablicy.
0
0
A czemu chcesz parsować html? Ta strona nie udostępnia jakiegoś API lub RSS?
0
@TomRiddle: Celem ćwiczeń i lepszego poznania języka. Chcę zrobić Swój parser, tak aby użytkownik mógł wpisać URL, selektor i nazwę klasy albo id i dany fragment z danej strony zostanie zwrócony.
0
Po pierwsze to nie chcesz napisać swojego, tylko skorzystać z DOMDocument
. Po drugie, próbowałeś to włączyć? Działa? Jeśli działa to jesteś w domu.
0
@TomRiddle: Działa, wyszukuje i parsuje odpowiednią treść.