wyciąganie danych ze strony html --> xml(?)

0

Dzień dobry , po ciężkich poszukiwaniach i grzebaniu w dokumentacji udało mi się ściągnąć stronę internetową przy wykorzystaniu cUrl :).

Teraz pytanie ..ściągnąłem stronę kantoru i chciał bym wyciągnąć z tego co mam jakieś informacje.. Co winienem zrobić ?

Pomyślałem o dwóch sposobach :

  1. Wyrazenia regularne,
    2.XML.

Ale nigdy nie używałem xml-a ,i nie wiem jak to ugryźć :(.

2

Wyrażenia regularne służą, jak brzmi nazwa, do parsowania języków regularnych - HTML takim nie jest.
Wykorzystaj dedykowany parser do HTMLa.

0

Pod tym linkiem :
https://blog.laplante.io/2014/11/parsing-html-c-revisited/

Ktoś używa libXML2 - to popularne rozwiązanie ?Czy to bardziej skomplikowane ??

0

Ktoś używa libXML2 - to popularne rozwiązanie ?

screenshot-20170503174201.png

Czy to bardziej skomplikowane ??

Przecież masz załączony przykład kodu, sam musisz ocenić jego stopień trudności.

0

ok ,dzięki .

0

Hej hej .. Jestem już na etapie pobierania kodu strony i przekierowanie go do pliku ..:p Ale nie mogę się kompletnie połapać w bibliotece libXML2.. przeglądałem stronę dokumentacji ..ale .. kurcze no nie mogę sie tam odnaleźć :P czy znacie może coś ..lepszego ?

0

Jakie masz środowisko? (system + IDE)

0

Windows 7 64bity w wersji pro, najwygodniej idzie z code-blocka,ale mam również MVS 2017 oraz.Clion ale w wersji próbnej.

0

Hej ,

Próbuję podpiąć libXML2 do Code Blocks, ale gdy dodaje dyrektywę #include <libxml/HTMLparser> przekierowuje mnie do innego pliku o nazwie encoding.h .po czym w oknie debuggera pliku ** encoding.h** dostaje informacje "no such file or directory" o dźwięcznej nazwie "**iconv.

Czy ktoś uporał się z tego typu problemem ?
[hr]

Okej ,już rozgryzłem ..:). Wystarczyło ściągnąć iconv.h i podpiąć do code blocka

0

Cześć ponownie ,

Piszę ponieważ błądzę .. Program pobiera stronę ,ale nijak wiem jak się zabrać za wybieranie danych .. widzę że biblioteka libXml jest dla mnie bardzo trudna do opanowania ,ale też nie jestem do końca pewien czy na razie chce utrudniać sobie życie formatem xml, o którym nie mam bladego pojęcia.

Stąd nasuwa się pytanie:

  1. Czy jest możliwe abym wyciągnął dane z kodu html ,ale bez przekształcania pliku w format xml,a wynik był by wyświetlany w oknie konsoli?

Na html nie jest mi obcy ,a wiem że kod który chce zdobyć to tylko tabela ..nawet nie generowana dynamicznie
Macie jakieś konstruktywne rady ?

IDE: Code::Blocks 16, Microsoft Visual studio 2017 , Clion (demo)
System: Windows 7 x64

1 użytkowników online, w tym zalogowanych: 0, gości: 1