Witam,
Musze pobrac strone przez curl, a nastepnie sparsowac, azeby zapisac do bazy danych tylko odpowiednie elementy strony.
Uklad strony w html wyglada tak:
Jak mam pobrac kontent z zaznaczonego diva? Jakies pomysly?
Witam,
Musze pobrac strone przez curl, a nastepnie sparsowac, azeby zapisac do bazy danych tylko odpowiednie elementy strony.
Uklad strony w html wyglada tak:
Jak mam pobrac kontent z zaznaczonego diva? Jakies pomysly?
Użyłbym tego: http://symfony.com/doc/current/components/dom_crawler.html
Szukasz elementu po id, potem z tego elementu pobierasz 4 dziecko i masz.
W PHP natomiast jest sobie: http://php.net/manual/en/book.dom.php
KOSZ!
Ok. Ja zacząłem bawić się od klasy domdocument
i udało mi się pobrać całego diava, ale problem był w rozpoznaniu h1, h2 i oddzieleniu kontentu, pomiędzy nimi. Więc wywaliłem tą klasę i jeszcze inną jaką używałem i zastosowałem wyrażenia regularne z preg_match
i gdzieś tam pomiędzy użyłem str_replace, do wywalenia niepotrzebnych tagów, ew. dodania idka, a następnie znowu użycia wyrażenia regularnego. I wszystko zajęło mi chwilę, z domdocument klasą i jeszcze jąkąś tam coś jak DomPath czy jakoś siedziałem i czytałem dokumentacje z 2-3h, niby byłem blisko, ale prostasprawa zabrała mi 2-3 razy więcej czasu niż powinna. Druga sprawa, jest taka, że może czas najwyższy podszkolić się z tej klasy :)
edit
:
Gdzieś tam w między czasie pobrałem Simply HTML parser klasę i też dupa z niej wyszła...